マイクロソフト、文章から画像を生成するボットを開発

cropped-logo_data1-32x32-449622ca518e516c1682d44a0dd426466825a7ae

マイクロソフトは、文章から画像を生成する技術、「ドローイングボット」を開発した。

概要

Microsoft Researchで開発中の新しいAIテクノロジは、キャプションのような文章中の単語に注目して画像を生成する。arXiv.orgに投稿した研究論文のテストの結果では、このテクノロジは、従来のテキストから画像への変換手法の最先端技術と比較して、業界標準テストによる画像品質が約3倍に向上している。

研究者が「ドローイングボット」と呼ぶこのテクノロジは、家畜の群れる農村の風景などの普通の景色から、宙に浮く2階建てバスといったものまで、テキストからあらゆる画像を生成する。

各画像には、テキストの説明にはない詳細な背景などが含まれ、このAIには人工的な想像力を有していることを物語っているのだという。

ドローイングボットは、画像と自然言語処理という両分野の交差によるものであり、それに関連する同社の研究の集大成だという。

最初に、写真のキャプションを自動的に作成するテクノロジであるCaptionBotが作られ、次に、物体の位置や特性など画像に関する質問に回答するテクノロジが作られた(このテクノロジは視覚障がいを持つ人々にとって非常に有用となる)。

これらの研究には物体を識別するための機械学習モデルの訓練、行動の解釈、そして、自然言語による対話が必要だ。

洞察力も備えた画像生成

マイクロソフトのドローイングボットの中核にあるのは、GAN(Generative Adversarial Network:敵対的生成ネットワーク)と呼ばれるテクノロジだ。

このネットワークは 2つの機械学習モデルから構成され、生成ネットワーク、呼ばれる一方のモデルが文章の記述から画像を生成し、もう一方の「ディスクリミネータ」と呼ばれるモデルが、生成された画像の正当性を文書の記述に基づいて判断する。

生成ネットワークは間違った画像で識別ネットワークを欺こうとし、識別ネットワークは欺かれないように学習する。両者が協同することで、識別ネットワークは生成ネットワークを完璧な形に近づけていくという。

マイクロソフトのドローイングボットは画像とキャプションのペアから成るデータセットによって訓練された。これにより、モデルは単語とその単語のビジュアルな表現との関係を学習することができる。

GANは、たとえば、キャプションに鳥と書いてあった時には鳥を描くよう学習し、鳥の絵がどのようであるべきかを学習する。

GANは「青い鳥」や「常緑植物」といった単純な記述に基づいて画像を生成するのは得意だが、「頭が緑色で、翼が黄色で、腹が赤色の鳥」といった複雑な記述になると画像の品質は低下する。

これは、文章全体が生成ネットワークに対する単一の情報として扱われ、詳細な情報が失われてしまうからだという。結果として得られるのは緑、黄色、赤が混ざったぼやけた鳥の画像であり、記述に合致するものではなくなる。

人間が絵を描く時にはテキストの記述を何回も参照し、今描いている部分に関する記述に対して注意を払う。この人間の特性を獲得するために、研究者たちは人間の洞察力を数学的に表現したAttnGAN(アテンショナル GAN)と呼ばれるネットワークを構築。このネットワークは、入力テキストを個別の単語に分解し、画像中の特定の領域と対応付けることで画像を生成する。

このモデルは人間が常識と考えるものを訓練データから学び、画像中の想像に任せられた部分に学習した概念を当てはめる。たとえば、訓練データ中の鳥の画像の多くは鳥が木の枝にとまっているため、AttnGANはテキストの記述と矛盾しない限り、鳥が木の上にとまっている画像を描く。

テストのために、研究チームは「赤い2階建てバスが湖に浮いている」というキャプションをドローイングボットに入力した。すると、2つのデッキがあるボートと2階建てバスの両方に似た物体が山に囲まれた湖に浮かぶぼやけた画像が生成された。

これは、湖に浮かぶのはボートである一方でテキストではバスが指定されていることから、ボットが内部的に葛藤したことを示しているという。

実用的応用

テキストから画像への生成テクノロジには、画家やインテリアデザイナーのスケッチの補助や音声による写真編集ツールなどの実用的な応用が考えられる。研究チームは、コンピューティング能力の強化により、台本に基づいたアニメーションの自動作成などを実用化できると構想しているという。

現時点では、このテクノロジは完璧ではないとマイクロソフトは考えている。画像をよく見ればほとんどの場合に欠陥があるという。例えば、鳥のくちばしが黒ではなく青であったり、果物として売られているバナナが突然変異を起こしたようになっていたりするのだ。

これらの欠陥は、人間ではなくコンピューターが画像を作成していることの証拠でもある。とは言え、AttnGANの画像の品質は、以前の最高水準のGANと比較して約3倍の向上を達成しており、これは、人間の能力を高める汎用のインテリジェンスを実現する上での重要なマイルストーンだという。

【関連リンク】
マイクロソフト(Microsoft)

  • このエントリーをはてなブックマークに追加

関連記事

話題をチェック

  1. 600x601x20170822nana.jpg.pagespeed.ic.u5ed1iTQeL-e5b3de5c391c8e3805df72a8cdb3da051ece71fa

    ANA、機内食総選挙2017の結果発表 和食は牛すきやき丼、洋食はビーフシチューとオムライス

    Sponsored link  機上ӗ…
  2. MIT-Instant-Retouch-TA-12db540ca97a6020f2db78ca5b27647ac89d2f28

    機械学習を用いれば、写真が「撮影する前」からプロ仕様の美しさに──グーグルとMITがアルゴリズムを開発

    NEWS 2017.08.22 TUE 08:00マサチ&…
  3. GettyImages-496380034-e1503241697905-b18cea347ee2933a806af5a4adfa2f3d9569add1

    「世界共通のインターネット」を巡る、グーグルとカナダ最高裁との闘い

    NEWS 2017.08.21 MON 07:00カナダ&…
ページ上部へ戻る