人間は画像内の「柔毛のサル」を問題なく特定できるでしょう。しかし、どれほど多くの人が、十分にトレーニングされたネットワークと同様に、問題のサルをテングザルとしてではなく、グエノンと見なすでしょうか。鼻の長いサルであるテングザルを知っている人のうち、どれだけの人がグエノンを正しくドリアスモンキーと見なすでしょうか。

　これはIMAGE NET本来の目的に対するあら探しです。しかし、CNNが人間の代わりに、人間に説明可能な方法で機能することが期待されるアプリケーションでは、現実的な問題となります。恐らく、この問題は誤り率ではなく、誤りの大きさです。人間は、道にいるサルをグエノンと認識できないかもしれませんが、水たまりと勘違いして、あるいは高い可能性の答えがないとして、その上を車で通り過ぎることはありません。

　CNNが新たな状況において致命的誤りを犯さないと確信できないことは、むしろネットワークの構造に起因します。CNNは、いったんトレーニングすると、新しい入力に対する応答を解析的にまたは定性的に予測することはほぼ不可能になります。しかし、私たち人間はCNN内で起こることについて概念的な言葉で語り、ネットワークの応答の範囲をある程度考えることはできます（図.2）。

図.2　CNNは、各層が前層を基礎として連続する抽象的命題を形成する層ノードで構成される

　大まかに言うと、トレーニング後のCNN層内の各ノードは、ネットワーク入力で提示されたデータに関する具体的命題の真実の推定を保持します。入力に最も近い層から出力に最も近い層に移動するに従って、命題はより抽象的になります。

　入力の近くにあるノードは、画像内の特定位置に青い縦線の存在を示しているかもしれません。別のノードは、赤い点の存在を示しているかもしれません。ネットワーク内の層をさらに深く進み、前の多くのノードを利用したノードは、赤い点を囲む青い台形の存在を示すかもしれません。ネットワークの出力側に向かって、ノード値は、赤いロゴの付いた青いトラックが目の前の交差点を通り過ぎていく可能性を示すかもしれません。

　各抽象化層で検討可能な異なる原子命題の数は、その層のノード数によって制限されるように思われます。特に、CNNが物体に対して選択可能なタグ数は、ネットワークの最終段階からの出力数より多くすることはできません。その数は、慎重に制約されたIMAGE NETチャレンジの場合で1000でしょう。IBMアルマデン研究所ディレクターのJeffrey Welser氏によれば、このチャレンジには20～50ステージで約500万ノードを持つCNNが妥当であることが分かっています。こうした規模は現在、データセンター以外では対応できません。

　しかし、可能なタグが任意に制限された物体タグ付けCNNは、実際の道路を走る自動車の運転に責任を負うネットワークに比べれば、非常に小さいと考えられます。視覚的に曖昧な物体または全く新しい物体について重要な結論を下すには、どのくらいのタグが必要なのでしょうか。最適とはいえない実際の走行状況でネットワークが最適な軌道を確実に選択するようにするためには、どのくらいの命題を評価しなければならないのでしょうか。

　そして、自動車のどこにデータセンターを積めばよいのでしょうか。

関連キーワード

人工知能 | ディープラーニング | ASIC | Cognitive Computing | AlphaGo | 機械学習

CNNを実用化させる「アクセラレータ」

世界を変えるAI技術「ディープラーニング」が製造業にもたらすインパクト
人工知能やディープラーニングといった言葉が注目を集めていますが、それはITの世界だけにとどまるものではなく、製造業においても導入・検討されています。製造業にとって人工知能やディープラーニングがどのようなインパクトをもたらすか、解説します。
人工知能の奇跡的な復権
囲碁王者への勝利を果たすなどAI（人工知能）への注目は依然として高くありますが、研究史を知る身からすれば、AIへの興奮はジェットコースターのようなものであるとも感じられます。多岐にわたる成果を挙げ始めた現代のAIは何が違うのでしょうか。
畳み込みニューラルネットワークの使い方、分かりますか？
畳み込みニューラルネットワークとは何でしょうか。学問の世界から現実の世界に登場しつつあるこれは、さまざまな組み込みシステムに利用される可能性が高く、大いに関心を持つべきです。
中世史に学ぶ、組み込みシステムのセキュリティモデル
セキュリティの確保は重要ですが、リソースや利便性との兼ね合いも求められます。組み込みシステムのセキュリティ確保について、中世の城の防衛策を例に考察します。
組み込みにおけるコンピュータビジョンを整理する
画像認識（コンピュータビジョン、マシンビジョン）の需要は高まっており、その方法はさまざまです。画像による入力を有用なものとする実装方法について分類と整理を試みます。