「第5回 AI・人工知能EXPO 春」（2021年4月7～9日、東京ビッグサイト）の技術セミナーに、早稲田大学理工学術院教授で産業技術総合研究所人工知能研究センター特定フェローを務める尾形哲也氏が登壇。「ディープラーニングが革新するロボットの知能化と産業」をテーマに、尾形氏らが進めてきた、感覚と行動が一体化されたデータ（経験）による予測と実時間での修正という予測学習のフレームワークに基づく「エクスペリエンス・ベースド・ロボティクス」の概念や、企業との研究事例などについて講演を行った。

実世界で学習して適応するシステム

早稲田大学理工学術院教授の尾形哲也氏

　ディープラーニング（深層学習）によって得られた成果がさまざまな形でみられるようになった。それらの多くは、画像や映像、音声などについて、スムーズに生成・認識を行えというものだ。その結果は自然言語認識にもつながり、機械と人の対話などにも生かされつつある。

　ただし、満足のいくパフォーマンスを出せているものの大半は、PCなどのコンピュータやクラウドなどとネットワークと接続することによって実現されている。実際に、ロボットがスタンドアロンの状態でディープラーニングを活用しているケースは少ない。依然として、ロボットが人間と同じような知能化を果たすことはかなり難しい状況にある。尾形氏は「サイバーとフィジカルの世界がつながったり、トランスファーしたりすることはそう簡単にはいかない。これまでも、そういったギャップがどこにあるのか意識し続けてきた」と語る。その上で、「ディープラーニングだけでなく、実世界で学習して適応するシステムを考えることが、次のAI（人工知能）を考えるきっかけになるのではないか」と指摘する。

　現在、ディープラーニングを活用したロボットの機能として広く利用されるようになっているのは画像認識だろう。物体の傷つき具合や、品質検査などに画像認識の技術が利用されている。しかし、さらにロボット開発を進化させる上で難しいのは、フィジカルな世界のセンサーによる計測結果をモデルに落とし込むところだ。

　そこで、モデルを使わずにセンサー値を解釈してそのまま行動につなげるという手法が考えられた。ロボットの感覚（センサー値）と、それを基に判断して行った行動の差異に対して報酬値を準備するというものだ。良い結果が得られた感覚と行動の組み合わせに高い報酬値を与えることにより、より高い報酬値を得られるような高等戦略を学習するための強化学習が、現在のロボット業界では最も注目を浴びている。ただし、「良い」「悪い」の判断の基になる報酬関数の作成はかなり困難であり、学習回数も数万～数十万回とかなり多くの回数が必要になる。

　この膨大な学習回数を実機で行うことは難しいためシミュレーションを活用することになるが、このシミュレーションから作成した分析モデルの評価も課題になっている。囲碁や将棋などであれば報酬関数の設定による最適化は行えるが、実世界で作業を行うロボットの場合は難しい。基本的に、予測しようとして失敗するので、まずは失敗した行動結果を学習してから、行動を生成する内部状態を変えることが必要になる。

開発成果として「AI模倣学習」をリリース

　　　　　　 1|2 次のページへ