ロボットの“訓練”に使う「秘密の地下ドーム」に潜入──機械の知覚能力は、こうして向上する

panoptic-e1519962865694-7baf5809db44134f6cd9340f4d2d21e3a401fc8d

カーネギーメロン大学の地下に、『スター・ウォーズ』に登場しそうな大きなドームがある。壁じゅうにカメラが取り付けられたこの部屋には、人とロボットのコミュニケーションを向上させるための秘密が隠されているのだという。

TEXT BY MATT SIMON
TRANLSATION BY ASUKA KAWANABE

WIRED (US)

panoptic

PHOTOGRAPH COURTESY OF WIRED US

カーネギーメロン大学のひんやりした地下室に、巨大なドームがある。それは物理の実験の一環のようにも見えるし、ダース・ベイダーの瞑想室に見えなくもない。天井まで約4mある部屋の壁のあちこちには、電子機器の箱やワイヤーが取り付けられている。

しかし、このスペースは素粒子の実験をする場所でもなければ、悪役が休むための場所でもない。ロボットの性能を向上させる目的でつくられた場所なのだ。

このドームは「Panoptic Studio」と呼ばれている。壁のワイヤーや電子機器は実は、500個の2Dと3Dのカメラでつくる複雑なシステムの一部だ。ドーム内の人々の様子をとらえるために据え付けられた。ドームのなかの人間は、ボールがたくさんついた奇妙なスーツを着る必要はない。

ロボット訓練用の秘密兵器

このドームではロボットたちが将来、わたしたちをどう“見る”かを垣間みることができる。彼らは人間の微かなジェスチャーも見逃さない。互いが交流するためには欠かせないものだからだ。

研究者たちは大量のデータを集め、3Dマシンヴィジョンのアルゴリズムを訓練しようとしている。すでに2D画像認識では同じようなことが行われている。

いまもロボットは言葉を通じたコミュニケーションなら、案外、上手にできる。「Kuri」のようなコンパニオンロボット[日本語版記事]は、デジタルアシスタントのようにあなたの指示に対応する。

しかし、コミュニケーションには言葉以上の要素がたくさんある。ロボットの能力が高度になるにつれ、人間とロボットの関係も洗練されたものになってゆく。

指差したものをもってこさせるには、人のジェスチャーを認識させる必要がある。もっと複雑な動きをするセキュリティロボットのようなものになれば、敵意を察知するために人の振る舞いを上手に分析するだろう。医療ロボットなら、痛みを知らせる表情を認識できなくてはならない。

こうしたことをロボットができるようになるのは、まだまだ先だろう。だが、Panoptic Studioはそんな未来への実に興味深い架け橋だ。このシステムは、多くのカメラからの映像データを合成して利用する。カメラのほとんどは低解像度のものだが、高解像度のカメラも31台、Kinectセンサーは10台ある。

そのうえで、スペース内にあるカメラそれぞれの位置を考慮し、すべてのカメラからのデータ合わせると、ドーム内の物体の骨格を正確に重ねて表現できる。四肢から指の1本1本まで正確に、だ。

VIDEO COURTESY OF WIRED US(字幕は英語のみ。画面右下の「CC」ボタンで字幕のオン/オフが可能)

毎分600GB分生み出されるデータを、研究者たちはGPUという“軍隊”を使ってさばいている。これまで彼らが集めたデータは計1ペタ(100万ギガ)バイト以上になる。その内容は、2人の人間が握手をしている様子や踊っている様子、楽器を演奏している様子までさまざまだ。

こういった動作をしている写真をアルゴリズムに認識させる訓練をするなら、ネット上のストックフォトにある類似の写真を仕えれば簡単にデータセットをつくれるだろう。しかし、3D用のデータセットは存在しない。

「だからこそ、このスタジオが必要なのです。現時点では、Panoptic Studioだけがこうしたデータを簡単に集める方法かもしれません」と、システム開発に協力したカーネギーメロン大学のロボティクス研究者、ハンビョル・ジュは言う。

現実世界で使うための「OpenPose」

ただし、問題がある。対象物の動きを把握するために、その周囲から500台ものカメラを向けるロボットはあまりいない。つまり、普通の環境で使えるようなシステムではないのだ。いま出回っている平均的なロボットには、せいぜい1〜2台のカメラしかついていない。加えるとしても、周辺世界をレーザーでマッピングするためのLiDARシステムくらいだろう。

そこで、ジュたちはPanoptic Studioでの成果を生かし、「OpenPose」と名づけたプログラムを開発した。ウェブカメラで人の動きを把握し、リアルタイムで骨格としてモデリングするものだ。ウェブカメラで機能するなら、いつかロボットでもできるようになるだろう。ここで試すことができる。

動作が軽いので、音声認識と組み合わせてより自然なコミュニケーションを促進できるだろう。「社会的な交流においては些細なことも重要な意味をもちます。微かな表情の変化や小さなハンドジェスチャーなどが大きな影響を与えるのです。われわれのシステムを使えば、こういったディテールを直接、把握できます」

きめ細やかなコミュニケーションは、ロボットとの交流の幅が広がるにつれ、欠かせないものになるだろう。人とロボットが真の意味で協働する[日本語版記事]ようになれば、ロボットアームは人がいることを把握できなければならない。

セラピーロボットが自閉症の子どもとやりとりを交わし、表情を正確に読み取る日もやって来るかもしれない。すでに、こういったセンシング技術を使って耳の不自由な子どものコミュニケーションを助けるロボット[日本語版記事]もあるくらいだ。

たくさんのカメラが取り付けられた地下のドームで起きていることが、将来、われわれとロボットの距離を縮めてくれるかもしれない。ダース・ベイダーもさぞ誇りに思うことだろう。

  • このエントリーをはてなブックマークに追加

関連記事

話題をチェック

  1. 600x601x20170822nana.jpg.pagespeed.ic.u5ed1iTQeL-e5b3de5c391c8e3805df72a8cdb3da051ece71fa

    ANA、機内食総選挙2017の結果発表 和食は牛すきやき丼、洋食はビーフシチューとオムライス

    Sponsored link  機上ӗ…
  2. MIT-Instant-Retouch-TA-12db540ca97a6020f2db78ca5b27647ac89d2f28

    機械学習を用いれば、写真が「撮影する前」からプロ仕様の美しさに──グーグルとMITがアルゴリズムを開発

    NEWS 2017.08.22 TUE 08:00マサチ&…
  3. GettyImages-496380034-e1503241697905-b18cea347ee2933a806af5a4adfa2f3d9569add1

    「世界共通のインターネット」を巡る、グーグルとカナダ最高裁との闘い

    NEWS 2017.08.21 MON 07:00カナダ&…
ページ上部へ戻る