OpenAIとDeepMindが作り出した、複雑なAIの学習を実現する新手法

cropped-logo_data1-32x32-449622ca518e516c1682d44a0dd426466825a7ae

IoTNews Global

もし、AIが複雑なゴール(目的)を達成する途中におかしな挙動をしたら、不快な動作や、危ない動作を起こす可能性がある。そこで、AI研究者が安全なAIシステムを開発するためには、人間による最終目的設定(ゴール機能の作成)を除くべきだという考え方がある。

今回、人工知能を研究する非営利団体で、代表をテスラのイーロン・マスクが務めるOpenAIは、Googleの関連会社であるDeepMindの安全チームと協力し、人間が望む結果を想定できるアルゴリズムを開発したというのだ。

AIが二つの動作を表示し、人間がそれ中から望ましい結果に近い動作を選択することで、AIは人間の嗜好に基づいて学習し目的に達する。今回紹介されたアルゴリズムは900ビットという少量の人間フィードバックと強化学習によって「バク転」を学習したというものだ。

人間のフィードバックを使っている機械学習システムは従来もあったが、今回のシステムはもっと複雑なタスクにも適用するためにスケールアップされたところが新しいのだという。全体の学習プロセスは人間、AI エージェントによる目的の理解と強化学習という3ステップのフィードバックサイクルである。学習の仕組みは下記の通りだ。

1. AIエージェントがランダムな動作を始める。
2. 定期的にエージェントが異なる動作をしている二つの短い動画が評価をしている人間に表示され、人間が目的達成に近い動作の動画を選ぶ(この例は、バック転に近い動作ということだ)。
3. この繰り返しでAIが報酬を活用しながらタスクの最終目的のモデルを作り出し、最終目標を達成するために強化学習を使う。
4. 動作が改善していくとともに、エージェントは二つの軌道から選べることができない場合、人間に追加フィードバックを要請し、さらに目的の理解を深めていく。

評価者(フィードバックしている人)は、1時間以下の時間で、システムが70時間以上の経験を積み重ねた結果、同手法は高い効率性を発揮したという(シミュレーションスピードはリアルタイム動作より著しく速い)。ただし、同アルゴリズムの性能が評価者の正しい動作選択に強く依存しており、評価者がいいフィードバックを提供できなかったら学習結果も望むレベルに達せない可能性がある。

さらに、研究者が2時間をかけて、報酬機能を作成し、エージェントに同じバック転を学習した場合、今回のエージェントより動作が不安定だったという。つまり、手動で学習目的を設定するより、人間のフィードバックを使うほうが、もっと直感的かつ素早い目的指定ができるということだ。

今後、研究者は、人間から求められているフィードバック量の削減に力をいれるということだ。

Open AI blog

  • このエントリーをはてなブックマークに追加

関連記事

  1. 12879510_m-666d0d56734eeefcba9104ea3e69eefc2bacf3ff

    2年連続で年末に起きた「ウクライナの停電」が意味するもの

    NEWS 2017.01.14 SAT 08:00ウクラ&…

おすすめ記事

  1. xrteclipse_20170821_164732-aa95ad719d7a65a66ec9c12746d60c068b705a97
    NEWS 2017.08.22 TUE 19:002017年8月21&#…
  2. 53193079_m-acec3a2697a393c66f6e91f0f11e542efc71b923
    NEWS 2017.08.20 SUN 16:00フィン&…
  3. FabricSensor-art-1-e1503018439627-785da1ecc20399209fa33539f9981bffdaca26b9
    NEWS 2017.08.20 SUN 14:00ハーヴ&…
  4. GettyImages-506802676-2-1a0f23a30093df056fac9205db1a1f203debdf6e
    INSIGHT 2017.08.20 SUN 08:00イーӤ…
  5. styly2-e1502955992988-126661b5a59757ca27c7a39e95f69deb9ddb31df
    NEWS 2017.08.18 FRI 17:00「VR(仮…
※ダウンロード後30分以内にインストールして下さい
http://technologyjapan.xyz/wp-admin/widgets.php#remove

話題をチェック

  1. 600x601x20170822nana.jpg.pagespeed.ic.u5ed1iTQeL-e5b3de5c391c8e3805df72a8cdb3da051ece71fa

    ANA、機内食総選挙2017の結果発表 和食は牛すきやき丼、洋食はビーフシチューとオムライス

    Sponsored link  機上ӗ…
  2. MIT-Instant-Retouch-TA-12db540ca97a6020f2db78ca5b27647ac89d2f28

    機械学習を用いれば、写真が「撮影する前」からプロ仕様の美しさに──グーグルとMITがアルゴリズムを開発

    NEWS 2017.08.22 TUE 08:00マサチ&…
  3. GettyImages-496380034-e1503241697905-b18cea347ee2933a806af5a4adfa2f3d9569add1

    「世界共通のインターネット」を巡る、グーグルとカナダ最高裁との闘い

    NEWS 2017.08.21 MON 07:00カナダ&…
ページ上部へ戻る