このプロセスには、多くのエンジニアから反感を買う点が幾つかかあります。1 つは完全に非決定性である点です。実際の入力に対するトレーニング後のネットワークの応答、全体の精度、特定の重大状況における応答、あるいは必要なトレーニング時間を予測する試みは、ほとんどが失敗に終わっており、多くはCNNの構造、誤差関数、そして特にトレーニング画像の選択に左右されます。

　もう1つは、トレーニング後のCNN内の特徴マップやニューロンが意味するところを直感的に把握することが困難または不可能である可能性があるという点です。それらは個々のデータ・セットとして明確な意味を持たなくても、十分に有効であるかもしれないからです。

　要するに、適切かどうか分からないネットワークを構築し、十分に代表的であることを祈るしかない画像でトレーニングし、うまく機能する理由または重大な間違いが生じる理由は正確には分からないということです。優秀なエンジニアがどうしてこんなことができるでしょうか。

　研究者や多くのエンベデッドシステム開発者がわざわざこんな苦労をする理由は簡単です。それはCNNがうまく機能することにほかなりません。トレーニング結果は、概して実際の結果を予測しています。また、CNNは標準的な物体認識および分類問題において、その他のアルゴリズムを上回る性能を一貫して示しており、物体のサイズ、位置、照明の変化に比較的反応しにくいという特長もあります。

　さらに、Googleとスタンフォード大学の研究者らが最近発表した論文によれば、異なるCNNのクラスタは、画像内の物体の分類だけでなく、画像内の状況を説明するキャプションの記述にも高度な正確性を示すことが明らかになっています。現在、そこまで到達している既知のアルゴリズムは他にありません。

　Compton氏は「この非決定性は、特にセーフティ・クリティカル・アプリケーションでは不安要素となる可能性があります」と認めながらも、「しかし、現実世界におけるエンジニアリングでも非決定性のことは数多くあり、理想的に信頼できるシステムは存在しません。目標は許容可能な失敗率を達成することです。CNNの場合、推定誤差率に確信が得られるのに十分な大量のテスト・セットを生成すれば可能です」としています。

CNNを使うには、具体的にどうすればよいのか？