マイクロソフト、聴覚障がいのある学生をAIを活用して支援

59-9b0f3a1325755022e0fe5448d38b69aa563d8f55

成績不良の学生が一般生物学の授業の席に着くと、特殊感覚と一般感覚の専門用語を使った教授のジョーク「どの受容体が痛みを感じますか?全部です」というキャプションが、背後の大形スクリーン上の PowerPoint に、リアルタイムで表示された。手話通訳者が数フィート離れた所に立ち、教授の言葉を米国内の聴覚障がい者が主に使用する手話であるASL(アメリカサインランゲージ)に翻訳している。

部屋の正面にあるスクリーン上のリアルタイムのキャプションを除くと、これがニューヨーク州北部のロチェスター工科大学(RIT)の典型的な授業風景だという。15,000 人の学部学生を擁するこの大規模大学のキャンパスには、およそ 1,500 人の聴覚障がいを持つ学生がいる。そのうち、700人は健常者と同じ授業を受けている。サンドラ コネリー (Sandra Connelly) 教授 の一般生物学のクラスを受講する 250 人の中にも、数 10 人の聴覚障がい者がいる。

ヘッドセットを着用したコネリー教授の背後にあるスクリーン上のキャプションは、AIを活用したコミュニケーションテクノロジである Microsoft Translator が生成したものだ。このシステムは自動音声認識を活用して、口癖や口ごもりなどを含む素の話し言葉を、句読点を含んだ流暢なテキストに変換する。ぎごちなさの排除と句読点の追加により、60 カ国語以上の言語への翻訳テキストが得られる。聴覚障がいを持つ人々のコミュニティは、このようなテキストが ASL を補強する重要なものであると考えているという。

マイクロソフトは RIT の一学部である National Technical Institute for the Deaf(NTID) と協力し、聴覚障がい者の学生のための音声認識と言語処理のAIテクノロジ活用を支援している。

7年前に聴覚を失ったガーナ出身の一年生、ジョセフ アジェイ (Joseph Adjei) 氏は「最初にこのシステムを見た時、健常者と同時に情報が得られることに大変興奮しました」と述べている。RIT に入学した時、彼は ASL に慣れていなかった。コネリー教授の生物学の授業で背後のスクリーンに表示されるリアルタイムのキャプションにより、授業について行くことができるようになり、科学用語の正しい綴りもわかるようになったと彼は述べている。

一般生物学の授業は二学期目に入っているが、アジェイ氏は ASL の訓練を続けている。彼は教室の最前列に座り、手話通訳者、スクリーン上のキャプション、そして、机に置いた自分のスマホ上の文字起こし原稿の間で視線を往復させている。この組み合わせによって授業に集中することができるのだと彼は述べる。ASL が理解できない時はキャプションをチェックすることで、見逃した情報を補完できるという。

キャプションは生物学の授業における重要なポイント、たとえば、“I” と “eye” を取り違えたりすることもあるが、「しかし、それでも何もないよりははるかに優れています」と彼は述べる。実際、アジェイ氏は授業以外でも健常者とのコミュニケーションのために、Microsoft Translator アプリを使っている。

「会話を行う時に速すぎて読唇術が使えないことがあります。その時は、スマホを使って話の流れを理解できます」と彼は述べる。

AI によるキャプション生成

自身も聴覚障がい者であるマイクロソフトのチーフアクセシビリティオフィサー、ジェニー レイフレリー (Jenny Lay-Flurrie) 氏は、RIT との試行プロジェクトが障がい、特に、聴覚障がいを持つ人々へのAIによる支援の可能性を示したと述べている。Microsoft Translator が提供するキャプションは、手話に新たなコミュニケーション手段を追加し、彼女を含むより多くの人々を支援すると述べる。

このプロジェクトは、教室での試行の初期段階にある。コネリー教授の一般生物学の授業は、Presentation Translator と呼ばれる Microsoft PowerPoint のアドインを使用したリアルタイムの AI キャプション生成サービスが利用可能な 10 講座のうちの一つだ。学生は、ラップトップ、スマホ、タブレット上で稼働する Microsoft Translator アプリを使い、好みの言語のキャプションをリアルタイムで受信できる。

「言語は人類の進化の推進要因です。コラボレーション、コミュニケーション、そして学習を強化します。RIT の教室ではキャプションを使用することで、あらゆる人の学習とコミュニケーションを向上させています」と Microsoft AI and Research の音声認識言語研究グループのリーダーであるゼドン ファン (Xuedong Huang) 氏は述べている。

ファン氏は1980 年代に、母国中国の 13 億の人々が西洋言語向けに設計されたキーボードで中国語をタイプ入力する必要がなくなるよう、自動音声認識の研究に取り組み始めた。数年前のディープラーニングによる音声認識の採用により人間と同等の正確性が達成され、ニュース記事を中国語から英語に翻訳する機械翻訳システムの開発に結び付いたという。これにより「AI テクノロジを人々の日々の生活で活用できるという確信が持てました」とファン氏は述べている。

需要が増加するアクセスサービス

ゲーリー ベーム (Gary Behm) 氏が 1974 年に RIT に入学した時、彼はおよそ 30 人の聴覚障がいを持つ学生の一人だった。今日もキャンパス中で広く行なわれているように、ASL 通訳者が教授の話し言葉を手話で通訳していた。ゲーリーは電子工学の学位を取得し、IBMでのキャリアで成功した。米国中を転勤し、機械工学の修士号を取得し、結婚して 3 人の息子をもうけた。そのうち、2 人は聴覚障がい者であり、妻も聴覚障がい者だという。

子供たちが成長し、自身のキャリアを求めるようになると、ベーム氏、そして彼と NTID で出会った妻は、大学へ戻ることを考えた。コンピューターに通じた機械系エンジニアであるベーム氏は、NTID の学生をサポートするアクセステクノロジの開発に取り組み始めた。現在、NTID には 1,500 人以上の学生がおり、その約半数は RIT の他の 8 つの学部の学生だ。

「開発の規模を拡大できたのは喜ばしいことですが、学生に提供するアクセスサービスに限界が生じてきました」と、現在は NTID の暫定教務副部長であり、アクセステクノロジの研究と展開を行うCenter on Access Technology(CAT) のディレクターであるベーム氏は述べている。

手話通訳者とリアルタイムキャプション生成というアクセスサービスの組み合わせにより、聴覚障がい克服して学生が授業を受ける支援が行える。健常者の学生は複数のことに同時に集中することができる。たとえば、教授が話しながら黒板に公式を書くと、健常者の学生は話を聞きながら公式をノートに書き写すことができるのだ。

「しかし、聴覚障がいを持つ人々にとってそれは不可能です。注意は常に手話通訳者に向いていますが、たとえば、教授が『黒板に書いた公式を見てください』というようなことを言うと、注意を通訳者から黒板に向けなければなりません」とベーム氏は述べる。

「通訳者に注意を戻しても、伝えられようとしていた情報はもう消えています。」

この問題を解決するために、RIT は 140 人の手話通訳者に加えて、50 人以上のキャプション作成者を採用している。キャプション作成者は、RIT が開発した C-Print というテクノロジを使用して講義をリアルタイムで文字に書き起こし、聴覚障がい者の学生のラップトップやタブレット上に表示できるようにする。さらに、一部の学生がシェアー可能なノートを取ることにより、聴覚障がいを持つ学生が授業の間に通訳とキャプションに集中できるようにしている。

「ここでの問題は、このようなアクセスサービスの規模を拡大し続けられるかということです」とベーム氏は述べる。

RIT の各学部に入学する聴覚障がい者の学生数が増す中で、RIT と NTID は彼らが充実したキャンパスライフを送れるようにすることにコミットしている。RIT は既に世界の教育機関で最多の手話通訳者とキャプション作成者を採用しているが、アクセスサービスへの需要は増大し続けている。これが、ベーム氏が自動音声認識(ASR)を含む他の有望なテクノロジを検討し始めた理由だという。

マイクロソフト、聴覚障がいのある学生をAIを活用して支援

ゲーリー ベーム (Gary Behm) 氏

自動音声認

NTID の卒業生で、現在は CAT のアソシエートディレクターであるブライアン トレイガー (Brian Trager)氏 は、2016年の春に行なわれた ASR の初期実験は期待にそぐわないものであったと述べている。センターの研究者が最初にテストしたシステムは不正確で、特に科学技術の専門用語を使用している時には何を言っているのか理解できないほどだったという。

「私は、子供の頃のように、ただ頷くことしかできませんでした」と聴覚障がい者で、子供の頃は読唇術もうまく使えなかったトレイガー氏は述べている。彼は、その頃は相手が何を言っているかわからなくてもうなずいていることが多かったのだ。

「それだけではなく、テキストも読みにくいものでした。たとえば、9/11のテロについて教師が話していると、システムは ‘n-i-n-e e-l-e-v-e-n’と表示します。年号でも価格でも同じです。単に素のデータなのです。ピリオドもカンマもないため、目が疲れてしまいました。空間的に認識する方法がなかったのです」と彼は続ける。

その年の夏、CAT の研究所で働いていた学部学生が様々なテクノロジ企業の ASR 製品をテストしている中、マイクロソフトのソリューションが有望に映った。「9/11といった数字は正しく表示されます。2001年は2001と表示されます。句読点がサポートされ、それだけでも読みやすさが大幅に向上しました。非常に快適でアクセスが容易なソリューションでした」とトレイガー氏は述べている。

NTIDの CAT の研究者たちは、特定分野の語彙に合わせて独自の言語モデルを構築することで音声認識を強化できる Microsoft Cognitive Service のベータ版、 Custom Speech Serviceの存在を知った。ベータテストへの参加を申し出ると、24 時間以内にマイクロソフトの研究組織の機械学習担当主任技術プログラムマネージャーである、ウィル ルイス (Will Lewis) 氏から返信メールが届いたという。

マイクロソフト、聴覚障がいのある学生をAIを活用して支援

ブライアン トレイガー (Brian Trager) 氏

教室向けの言語モデル

ルイス氏と彼のチームは、CAT の研究者に Microsoft Translator を紹介し、2017 年の秋には、チームは授業の題材に合わせた独自言語モデル構築の共同作業を開始し、PowerPointのPresentation Translatorアドインを使用した授業の試行を開始した。

モデル構築のため、研究者たちは特定の教授の 10 年以上にわたる授業における C-Print の文字起こし原稿データベース、そしてPowerPoint のノートのマイニングを行なった。Custom Speech Service の AI はこのデータを使用して、特定分野に固有の用語がどのように発音されるかのモデルを構築した。講師がそれらの言葉を発音すると、システムが認識し、リアルタイムで文字起こしし、表示する。

クリス キャンベル (Chris Campbell) 氏は NTID の卒業生であり、現在はCAT の准研究教授として、センターの ASR 展開の取り組みを統率している。2017年の秋に、キャンベル氏は、NTID の学生にプログラミングの基礎を教えたが、その時は手話を使用した。

「NTID には手話が得意ではなく、英語に依存している学生も来ます。そこで、私のクラスでは、通訳と共に使用する ASR を試行してみました」とキャンベル氏は述べる。

通訳はヘッドセットを装着し、キャンベル氏が手話で伝えることをすべて言葉にする。Microsoft Presentation Translator がPowerPoint スライドの下、そしてMicrosoft Translator アプリを稼働する学生のパーソナルデバイス上にキャプションを表示。キャンベル氏が手話を行うと、学生の目が自分、キャプション、そして、通訳の間を往復するのがわかったという。どの情報ソースに時間を費やすかは、学生のASLへの習熟度と聴力に依存するのだ。

難聴であり、 ASL に習熟できていない学生のアマンダ ブイ (Amanda Bui)氏 は、「通訳者とラップトップ上のキャプションの両方を使用することで、プログラミング言語の学習が容易になりました」と述べている。彼女は、カリフォルニア州フリーモントで育った時には、アクセスサービスを使用できなかったのだ。

マイクロソフト、聴覚障がいのある学生をAIを活用して支援

クリス キャンベル (Chris Campbell) 氏

あらゆる人のためのアクセシビリティ

一般生物学の教授であるコネリー氏は、自動キャプションテクノロジが ASL 通訳者を置き換える存在ではなく、強化する存在であると考えている。一つのジェスチャーで複数の単語を表現できる ASL は、文字を読むよりも負担が小さいからだ。しかし、通訳者と共に使用することで、より多くの学生、特に ASL に習熟していないジョセフ アジェイ氏などの学生のアクセスを向上できるという。

さらに、Microsoft Translator では、学生が文字起こし原稿を保存することも可能であり、これによりクラス全体の授業への取り組み方が変わったと彼女は述べる。

「講義中にジョークを言ってもずっと記録として残ります。講義はもう、一度やって終わりというものではありません。私にとっては終わりでもテキスト形式で残ります。生徒が私のオフィスに来る時は、『ここを聞き逃しました』といった理由で来ることはもうありません。『なぜこれが当てはまるのか理解できません』といった理由で来ます。生徒の持つ焦点が変わってしまったのです。」

健常者の学生も聞き逃した情報を得るために定期的にキャプションをチェックし、復習のために文字起こしを保存していると、コネリー氏は付け加える。ASR システムを試行していた秋学期の進化生物学の授業に出ていた一人の聴覚障がいの学生が履修を止めた時、コネリー氏はキャプション機能を停止したが、健常者の学生はこれに反対。結局、Presentation Translator は秋学期を通じて使用されることになったという。

ジェニー レイフラリ氏は、このようなストーリーはアクセシビリティに対する投資の価値を高めることになるため好ましいと述べている。

「純粋に製品設計の観点から言っても、アクセシビリティのために設計すれば、世界で 10 億人いると言われる障がいを持つ人々だけではなく、あらゆる人にとって価値を提供することができるのです。」

【関連リンク】
マイクロソフト(Microsoft)

  • このエントリーをはてなブックマークに追加

関連記事

話題をチェック

  1. 600x601x20170822nana.jpg.pagespeed.ic.u5ed1iTQeL-e5b3de5c391c8e3805df72a8cdb3da051ece71fa

    ANA、機内食総選挙2017の結果発表 和食は牛すきやき丼、洋食はビーフシチューとオムライス

    Sponsored link  機上ӗ…
  2. MIT-Instant-Retouch-TA-12db540ca97a6020f2db78ca5b27647ac89d2f28

    機械学習を用いれば、写真が「撮影する前」からプロ仕様の美しさに──グーグルとMITがアルゴリズムを開発

    NEWS 2017.08.22 TUE 08:00マサチ&…
  3. GettyImages-496380034-e1503241697905-b18cea347ee2933a806af5a4adfa2f3d9569add1

    「世界共通のインターネット」を巡る、グーグルとカナダ最高裁との闘い

    NEWS 2017.08.21 MON 07:00カナダ&…
ページ上部へ戻る