連載
» 2011年02月24日 12時00分 公開

テクノロジー最前線(4):モバイルアプリで音声入力が普通になる日――ニュアンスコミュニケーションズ (2/2)

[石田 己津人,@IT MONOist]
前のページへ 1|2       

クラウド型でエンジンが日々成長

 ニュアンス以外にも組み込み機器向けにスピーチ技術を提供しているベンダは何社も存在し、日本語に特化したソリューションもいくつかある。では、日本のモバイルアプリケーション開発者がDragon Mobile SDKを利用するメリットはあるのだろうか。

 この疑問に対してMasih氏は次のように答える。「開発者にとってiOS/Androidの魅力は世界市場で勝負できること。となれば、スピーチ機能も多言語に対応していることが必須になる。その点でわれわれのスピーチ技術は優位だ。また、サーバ集中のクラウド型でサービスを運用しているため、音声認識エンジンは使われれば使われるほどが成長する。つまり、開発者は、日々成長している音声認識機能をサービスとしてエンドユーザーに提供できる」。

photo 日本でもDragon Mobile SDKを利用するメリットは大いにあると語るMasih氏

 Dragon Mobile SDKに含まれる音声認識機能は12カ国語(米国・英国・豪州の英語、カナダ・欧州の仏語、イタリア語、独語、米国・欧州のスペイン語、日本語、韓国語、中国語)、音声合成機能に至っては35カ国語に対応する。これはエンジニアのうち150名がスピーチ技術分野で博士号を持つのに加え、IBMともグローバルに技術提携していることも好影響しているようだ。

 音声データを正しく認識するためには、統計的手法により音響・言語モデルを最適化していく必要があるわけだが、それには、より多くの音声データが必要になる。組み込み型と違い、クラウド型ならば日々膨大な音声データが集まってくる。極端な話、絶えず音響・言語モデルを最適化できるわけだ。例えば、Dragon Dictationでは、ユーザーが表示テキストをタップすると、それに近い複数の認識候補が表示されるが、ユーザーがどの候補を選択したかのデータも収集し、音声認識の精度を高めるのに役立てている。

iPhone標準搭載で音声入力が一般化?

 ニュアンスのスピーチ技術はこうした優位点を持つだけに、Dragon Mobile SDKの投入は、海外で大いに注目されているようだ。「リリース後3週間で1200社の開発企業がSDKを入手している」(Masih氏)という。そもそもSDKを投入する以前から、いくつかの開発企業には個別に技術供与しており、すでに市場に出回っているモバイルアプリケーションもある。例えば、Amazon、Ask.com、Merriam-Webster(オンライン辞書サイト)、iOSアプリケーションである(いずれも米国のApp Storeで提供される)。

 また、“パーソナルコンシェルジェ”とも呼ぶべき「Siri Assistant」もニュアンスのスピーチ技術を採用するiOSアプリケーションの1つ。音声検索とGPS、各種の情報サービスを組み合わせ、ユーザーの問い掛けに答える。例えば、「会社の近くでイタリアンが食べられる雰囲気のいい所がいい」と自然に語り掛けると、いくつもの候補が表示される。ユーザーはメニュー価格や店内画像を参考に選び、そのまま予約を入れる……そうした使い方ができる。

 実は、Siri Assistantの開発元を米アップルは2010年4月に買収している。つまり、近々にもiPhone/iPadで標準アプリケーションになる可能性が高い。そうなればスピーチ機能がスマートフォンやタブレット端末でますます一般化するだろう。

 日本のモバイルアプリケーション開発者も、いまからスピーチ機能を生かした新しいアプリケーション、サービスを考えるためにも一度、ニュアンスのDragon Mobile SDKを試してみるとよいだろう。

次世代エンベデッド コーナー

次世代エンベデッドコーナー

>>コーナーTOPはこちらから



前のページへ 1|2       

Copyright © ITmedia, Inc. All Rights Reserved.