NOR型フラッシュメモリ大手のSpansion（スパンション）は2012年7月13日、東京都内で記者会見を開き、車載情報機器やゲーム機、デジタル家電などで採用が広がっている音声認識機能専用のコプロセッサ「アコースティック・コプロセッサ（ACP）」を発表した。Nuance Communications（以下、Nuance）の音声認識ソフトウェア「VoCon」と、スパンションの高速フラッシュメモリ技術「MirrorBit」を融合した製品である。サンプル出荷は2012年7～9月期を予定している。製品立ち上げ当初は、米国や欧州で音声認識機能の搭載比率が高まっている車載情報機器向けを中心に展開する。既に、大手自動車メーカー数社による先行評価も進められているという。

　スパンションのシニア・バイスプレジデント兼CTO（最高技術責任者）を務めるSaied Tehrani氏は、「カーナビゲーションシステムに代表される車載情報機器のHMI（Human Machine Interface）として、運転操作を中断させることなくさまざまな操作が行える音声認識機能の搭載が急速に広がっている」と語る。しかし、現行の車載情報機器では、音声認識をソフトウェアで処理しているため、アプリケーションプロセッサに大きな負荷がかり、ナビゲーションソフトなど他の処理負荷の量によっては、音声認識が遅れたり誤認識を起こしたりする。Tehrani氏は、「そこで、音声認識で有力な技術を持つNuanceのIP（Intellectual Property）をハードウェア化した当社のACPを使えば、より高速かつ正確な音声認識機能を実装できるようになる」と主張する。

左の写真は、スパンションのSaied Tehrani氏。右の図は、アプリケーションプロセッサ上でソフトウェアベースにより音声認識を行うシステム（左）と、「ACP」を使用するシステムの比較である。（クリックで拡大）出典：スパンション

　なお、車載半導体は、高い耐熱性や耐振動性、厳しい品質管理、供給安定性などが要求される。スパンションの場合、「車載機器向けのNOR型フラッシュメモリの世界シェアは70％に達する」（Tehrani氏）こともあり、ACPを車載情報機器メーカーに供給する体制は整っているという。特に、数多くの有力車載情報機器メーカーが開発拠点を構える日本市場での展開を強化していく方針である。

音声スコリアング処理をハードウェア化

スパンションのAlvin Wong氏

　ACPを用いることで、音声認識の際にアプリケーションプロセッサにかかる負荷を約50％低減できる。音声認識時間も約50％短縮可能である。

　ACPによって音声認識の処理負荷と時間を半減できる理由について、同社マーケティング＆ビジネスデベロプメント担当バイスプレジデントのAlvin Wong氏は以下のように説明する。「音声認識の処理プロセスは大まかに3つに分けることができる。1つ目は、アナログ信号である音声データをデジタル信号に変換する『音声処理』。2つ目に来るのが、デジタル信号に変換した音声データの中に含まれる言葉を判別する『音声スコアリング』だ。最後の3つ目は、判別した言葉の羅列から言語や辞書のデータベースを使って意味を推し量る『検索』である。3つの処理にかかる負荷の合計を100とすると、音声処理の負荷は5未満、音声スコアリングが50～70、検索が30～50になる。ACPを使えば、最も負荷の大きい音声スコアリングについて、アプリケーションプロセッサ上でのソフトウェア処理に替えてハードウェアで処理できるのだ」（同氏）。

左の図では、3つの音声認識の処理プロセスを示している。「ACP」を使えば、最も負荷の大きい音声スコアリングをハードウェアで処理できる。右の写真は、ソフトウェアベースで処理した場合と、「ACP」を用いた場合を比較したデモンストレーションの結果。Wong氏が喋ったテキサス州オースティンにあるスパンションの工場の住所を音声認識して、「Google Maps」上に表示させるまでの時間が、ソフトウェアベースで処理すると8.7秒かかるが、「ACP」を用いると3.4秒に短縮できる。処理負荷も48％削減できている。（クリックで拡大）出典：スパンション

　ACPは2つの回路要素で構成されている。1つは、Nuanceの音声スコアリングのアルゴリズムをハードウェア化したカスタムロジックである。もう1つは、音声スコアリングに用いる音声データベース（これもNuanceのIP）を格納した高速NOR型フラッシュメモリである。カスタムロジックとNOR型フラッシュメモリの間は、帯域幅が1.2Gバイト／秒という高速バスで接続されている。なお、アプリケーションプロセッサとACPの接続にはSPI（Serial Peripheral Interface）を用いる。

「ACP」を利用すれば、より高精度の音声認識が可能になる（クリックで拡大）出典：スパンション

　なお、ACPの利用により、音声認識の処理負荷と時間を半減できるのは、ソフトウェア処理ベースの既存のシステムと比較した場合である。既存のシステムは、音声認識時間を短縮するために規模の小さい言語データベースを用いており、認識精度も低かった。ACPの場合、NOR型フラッシュメモリに規模の大きい言語データベースを格納して、より高精度の音声認識を行うこともできる。ただし、音声認識時間は既存のシステムと同程度になるという。

　ACPのパッケージの外形寸法は10mm角。フラッシュメモリに1～3種類の言語の音声データベースを格納する低価格の品種と、10～12種類の言語の音声データベースを格納できる高機能の品種を用意している。組み込む言語の種類は顧客が選択できる。

　実際に車載情報機器でACPを利用する場合には、音声認識プロセスのうちACPが担当しない音声処理や検索をアプリケーションプロセッサ上で実行するためのミドルウェアが必要になる。これらのミドルウェアはACP専用にNuanceが開発し、スパンションがACPにバンドルして顧客に提供することになる。