OpenAIとDeepMindが作り出した、複雑なAIの学習を実現する新手法

cropped-logo_data1-32x32-449622ca518e516c1682d44a0dd426466825a7ae

IoTNews Global

もし、AIが複雑なゴール(目的)を達成する途中におかしな挙動をしたら、不快な動作や、危ない動作を起こす可能性がある。そこで、AI研究者が安全なAIシステムを開発するためには、人間による最終目的設定(ゴール機能の作成)を除くべきだという考え方がある。

今回、人工知能を研究する非営利団体で、代表をテスラのイーロン・マスクが務めるOpenAIは、Googleの関連会社であるDeepMindの安全チームと協力し、人間が望む結果を想定できるアルゴリズムを開発したというのだ。

AIが二つの動作を表示し、人間がそれ中から望ましい結果に近い動作を選択することで、AIは人間の嗜好に基づいて学習し目的に達する。今回紹介されたアルゴリズムは900ビットという少量の人間フィードバックと強化学習によって「バク転」を学習したというものだ。

人間のフィードバックを使っている機械学習システムは従来もあったが、今回のシステムはもっと複雑なタスクにも適用するためにスケールアップされたところが新しいのだという。全体の学習プロセスは人間、AI エージェントによる目的の理解と強化学習という3ステップのフィードバックサイクルである。学習の仕組みは下記の通りだ。

1. AIエージェントがランダムな動作を始める。
2. 定期的にエージェントが異なる動作をしている二つの短い動画が評価をしている人間に表示され、人間が目的達成に近い動作の動画を選ぶ(この例は、バック転に近い動作ということだ)。
3. この繰り返しでAIが報酬を活用しながらタスクの最終目的のモデルを作り出し、最終目標を達成するために強化学習を使う。
4. 動作が改善していくとともに、エージェントは二つの軌道から選べることができない場合、人間に追加フィードバックを要請し、さらに目的の理解を深めていく。

評価者(フィードバックしている人)は、1時間以下の時間で、システムが70時間以上の経験を積み重ねた結果、同手法は高い効率性を発揮したという(シミュレーションスピードはリアルタイム動作より著しく速い)。ただし、同アルゴリズムの性能が評価者の正しい動作選択に強く依存しており、評価者がいいフィードバックを提供できなかったら学習結果も望むレベルに達せない可能性がある。

さらに、研究者が2時間をかけて、報酬機能を作成し、エージェントに同じバック転を学習した場合、今回のエージェントより動作が不安定だったという。つまり、手動で学習目的を設定するより、人間のフィードバックを使うほうが、もっと直感的かつ素早い目的指定ができるということだ。

今後、研究者は、人間から求められているフィードバック量の削減に力をいれるということだ。

Open AI blog

  • このエントリーをはてなブックマークに追加

関連記事

話題をチェック

  1. Quanta_TA-1-e1481166732906-ab2ca6b5ab1b5127ce66e83bab019d6dca7bbe3e

    2017-1-14

    生物の進化をその目で見届けた伝説の生物学者、グラント夫妻、40年の成果を語る

    STORY 2017.01.14 SAT 21:00ピュー…
  2. nuTonomy-Boston-8a112aeba185b1a6d7e9c16989b5f4f34fa88db9

    2017-1-12

    自律走行車の試験走行にはボストンが最適、といういくつかの理由

    INSIGHT 2017.01.13 FRI 08:00MITから…
  3. 20170112drone-bff49a50aabfc1d6bbcc015fa9e4a2fde42ee715

    2017-1-12

    グーグル親会社、ドローンインターネット計画「Titan」断念か 従業員は気球インターネット「Loon」へ

    Sponsored link  フェイ&…
ページ上部へ戻る