特集
» 2017年12月27日 11時00分 公開

「AI/IoT時代のソフトウェア開発」講演レポート:機械学習システムは「高金利クレジット」、ソフトの品質保証は難しいが可能性も (2/4)

[朴尚洙,MONOist]

機械学習の3つの本質的限界

 さらに丸山氏は、深層学習を含めて機械学習の本質的限界を3つ指摘した。1つ目は「将来が過去と同じでないと正しく予測できない」ことだ。これは、機械学習が過去に観測された訓練データから得た学習モデルを基に予測を行うために起こる必然といっていい。

 2つ目は「機械学習はひらめかない、臨機応変な対応をしない」である。訓練データセットの範囲内(内挿)で起こり得ることは予測できても、訓練データセットの範囲外(外挿)の希少な事象に対しては無力であり予測できない。「AIで非常事態に対応したいという要望があるが、非常事態とは希少な事象のことであり、機械学習では対応が難しい」(丸山氏)という。

 3つ目は「本質的に確率的」であることだ。起こり得る事象の元分布に対して、その一部でしかない訓練データを学習してモデルを得るため、サンプリングにバイアスが入ることは避けられない。丸山氏は「ランダムサンプリングである以上、偏りがないとは限らない。だからこそ100%の保証は原理的にできない」と強調する。

 また、機械学習では、従来のプログラミングの基礎になってきたソフトウェア工学とは異なる考え方が必要になることにも言及した。例えば、機械学習では「未学習領域」と「過学習領域」の中間に当たる領域で最適モデルが得られるが、従来のソフトウェア工学の考え方からすれば「ダークマジック(黒魔術)に近いこと」(丸山氏)だという。機械学習を用いたシステム構築サイクルも、従来よりも探索的である。

 これらのことから日本における「AI人材不足」が報道されているが、丸山氏は「人材の問題ではなく方法論が足りていないだけ。かつて1960年代に起きたソフトウェア危機の際にソフトウェア工学ができたように、『機械学習工学』に向けた機運は高まっている」と述べる。

 日本はAI後進国といわれることも多いが、今後に向けた期待もあるという。「学習済みモデルの共有、再利用という観点で、日本の著作権法47条の7(情報解析のための複製等)は極めて画期的。統計的処理を行ったモデルに著作権は及ばないとされているからだ。つまり、日本は機械学習のパラダイスなのだ」(丸山氏)。

機械学習の品質保証はなぜ難しいのか

 丸山氏は、これらの深層学習や機械学習の特徴を紹介した上で、品質保証の難しさと可能性について説明した。

 まず「機械学習システムは高金利クレジットと同じ」(同氏)とした。機械学習は、全てが絡み合うCACE(Changing Anything Changes Everything)原理に基づくため、どの関連要素も推論の精度に影響を与える。そして個別の事象に対する正しさを保証することは難しい。だからこそ「性能が出るといっていきなり使うのは危険、という意味で高金利クレジットと同じといえる」(同氏)。

 そして機械学習で得た結果に対するテストの問題もある。訓練データとして使われたデータは、それは既に経験したものであるが故にテストに使えない。このため、テストに用いる評価用データは別に用意しておかなければならない。

 本質的に確率的である機械学習システムに対する社会受容性も課題になる。このことについて丸山氏は「たとえV字モデルで開発を行っているセーフティクリティカルシステムでもバグがないわけではない。だからこそ、ソフトウェアの品質指標はプロセス品質指標で評価することが多い。機械学習システムの場合、非公開の評価用データを用いた第三者による評価を行えば、確率的ではあるが定量的なテストは可能になるのではないか」と語る。

 また機械学習の登場により、要件定義も変化しているという。例えば、自動運転の強化深層学習を行う際に衝突のペナルティを無限大にするとクルマは動かなくなってしまう。また、国際人工知能会議(IJCAI)では、ロボットに「コーヒーを取ってきて」と命令すると、ロボットがスターバックスに行って列に並んでいる人々を皆殺しにしてコーヒーをもってくる、という話があった。「これらは最適化問題における正しい仕様の在り方を提起している」(丸山氏)。

 深層学習は、学習済みモデルの結果がブラックボックスであることや、内容を説明できないことが課題とされることも多い。丸山氏は「ステップバイステップであれば説明できるが、人が全体を理解することはほぼ不可能だ。人に納得性のある説明ができるかが重要だが、そのためには何らかの定量化が必要になるかもしれない」と述べている。

Copyright © ITmedia, Inc. All Rights Reserved.