しかし、DeepMindは練習相手ではなくチャンピオンを目指していました。設計者は、モンテカルロ手法と2つの異なる CNN（戦略統制のためのCNNと局面評価のためのCNN）を統合することに決めました。大まかに言えば、DeepMindのシステムは今後の手を探し出すガイドになる戦略CNNと、その結果で得られた局面に定量値を与える評価ネットワークを使用して、実際にチャンピオンを負かしたのです。

　CNNを採用するとトレーニング方法という問題が生じます。インテルのDubey氏は「基本的なトレーニング方法には、監視付き学習、強化学習、監視なし学習の3つがあります」と説明しています。DeepMindには最初の2つが採用されました。設計者は、上級者が打った実対戦の膨大なデータセットを検証しながら2つのネットワークを監視したのです。つまり、碁盤の局面と人間が実際に打った次の手を多くの対戦で何度も繰り返して示すことによってネットワークをトレーニングしたのです。

　その後、トレーニングの幅を広げるために各対戦の結果を補強材料として使用し、ランダムに選択したそれ自体の旧バージョンと対戦するようにシステムを設定しました。これはCNNの経験の幅を広げただけでなく、人間の打ち手の模倣ではなく、最終結果である勝負にトレーニングを集中させました。設計者は、従来の勾配上昇関数または勾配下降関数を使用してトレーニング中にネットワークの畳み込み係数とニューラルの重み付けを調整しました。

　DeepMindのいずれのネットワークも、多くの畳み込みレイヤーの後ろに多くのレイヤーが続く従来の構造を持っていました。独自性の多くは、学習プロセス、とりわけシステムがそれ自体の旧バージョンと対戦する強化学習に由来します。

　Dubey氏は、これほど大きな規模の学習ネットワークは活用され始めたばかりであると考えています。超並列システムでネットワークをトレーニングした後、そのネットワークをはるかに小さなシステムで複製する機会には有望な将来が開けています。Dubey氏は、「トレーニングが済んだモデルは極めてコンパクトにできます」と述べています。

関連キーワード

人工知能

AIが日常的な問題と超強力な計算能力を結び付ける

中世史に学ぶ、組み込みシステムのセキュリティモデル
セキュリティの確保は重要ですが、リソースや利便性との兼ね合いも求められます。組み込みシステムのセキュリティ確保について、中世の城の防衛策を例に考察します。
WoT（Web of Things）と化すIoTに待ち受ける、分断された未来
さまざまな企業や勢力がIoTを目指していますが、残念ながら勢力ごとの対話はほぼ存在していません。Web技術を共通言語とし、IoTを「WoT（Web of Things）」とすることで妥協点を見いだそうという動きはありますが、成功するかは不透明と言わざるを得ません。
「SoC」or「SoC」？統合へのさまざまな道
1つのダイに複数機能を実装するSoC（System on Chip）化の波は高まるばかりです。アーキテクトはダイ間接続とマルチダイパッケージングの動向に注意を払い、コストや消費電力、将来性までも視野に入れた選択をしなければなりません。
組み込みコンピューティングに向けた、ハードウェアアクセラレーションの選択肢
組み込みコンピューティングを加速させるハードウェア・アーキテクチャとは何でしょうか。DSP？GPU？それともメニーコアでしょうか。どのアプローチが最も適するのかを考察します。
FinFET革命がコンピュータアーキテクチャを変える
FinFETの登場により、ムーアの法則はまだ継続される見通しです。ですが、それで全てが解決するわけではありません。FinFETの登場が、大きなSoCを自律的な機能ブロックに分割するという方向に導く結果となるでしょう。
サブシステムIPがチップの境界を越える
サブシステム規模のIP（サブシステムIP）はSoCはもちろん、FPGAにまでも影響を与えています。素晴らしい取り組みですが、さまざまな注意点も存在します。スムーズな実装を行うための4つの注意点について述べます。