その後、2つ目の進歩であるハードウェアアクセラレーションが提起されます。百度CNNはカスタム・スーパーコンピュータに実装されています。トレーニング中のシステムは、確率論的勾配降下アルゴリズムによって畳み込みカーネルとニューロン入力関数を精緻化します。CNNモデル自体がCPU上で実行されるのは明らかですが、トレーニング・アルゴリズムは、専用InfiniBandネットワーク上にリンクされた32個のNVDIA製GPUのバンク上で実行されます。

　トレーニングが終わると、CNNモデルを実行する計算負荷が大幅に低下します。武氏は「完全に訓練されたCNNを使用すると、それより小さなCNNをわずかな時間で訓練できます」と述べています。この方法であれば、極めて小さな機器でも良い性能を発揮させることができます。武氏は、「携帯電話機でも、その GPU コアの能力を利用すれば、訓練されたモデルを実行できます。当研究所は、携帯電話機の Imagination Technology GPU を使用してスマートフォンで自律的に実行する OpenCL モデルのデモを行います」と主張しています。

　一方、IBM は非常に異なるアプローチでハードウェア・アクセラレーションを行っています。IBMのTrueNorthプログラムは、ヘテロジニアスなCPU/GPUシステム上でCNNモデルを実行するのではなく、完全に結合されたニューラル・ネットワークにとどまっていますが、軸索、シナプス、ニューロン細胞をそのままエミュレートするカスタム・チップのアレイ上でモデルを実行します。

　現行のチップは、2億5600万個の潜在的シナプス結合によって、それぞれのダイ上に100万ニューロン相当を詰め込んでいます。完全なコンピュータは、ニューロンからの軸索をその他のニューロンのシナプスと結合可能にするネットワークを介して結合された、これらのチップの巨大なアレイです。各シナプスの動作とスレッショルドは、各ニューロンの動作と同様にプログラマブルです。そのシステムは、生体ニューロンの、確認されたどのような動作でもエミュレートできる柔軟性を備えている、とIBMは断言しました。

　TrueNorthデザインは、完全に結合された上に極めて柔軟であるという特性の他にも重要な特性を持っています。プログラム内蔵式のCPUで実行されるモデルとは異なり、ニューロン・チップは極めて単純な内部動作を使用しており、比較的低い周波数で動作します。その結果、1つのチップを100 mWで実行できるため、現行の45ナノメートルプロセスでもモバイル機器全体を実現することが可能になります。

　TrueNorth モデルは、所定の関数でプログラムすることも、設計後に従来の逆伝搬技法で訓練することもできます。IBMの研究者は、後者のアプローチによって極めて印象的な成果を分類シーンで実証しました。

　これまで、それぞれが特徴抽出からオブジェクト分類、予測可能なモデルの実行に至る連続したつながりの中で何らかの部分を占めるビジョン処理システムの領域を調べてきました。実装は、その連続したつながりに沿って、特徴を抽出するための簡単な計算から始まり、複雑なルールベースの分類機能とカルマン・フィルタまたはニューラル・ネットワーク・モデルのいずれかに進む傾向があることが分かりました。ただ、ニューラル・ネットワークとCNNが将来これらの難易度の高いシステムに好んで実装されるか、または終わりを迎える可能性があるかの予測は注意深く避けました。

（本稿はSYSTEM DESIGN JOURNALに掲載された「Sorting Out Embedded Vision Systems」の翻訳です）