連載
» 2011年02月24日 12時00分 UPDATE

テクノロジー最前線(4):モバイルアプリで音声入力が普通になる日――ニュアンスコミュニケーションズ (1/2)

モバイル向け音声認識・音声合成のスピーチソリューションに強みを持つ米ニュアンスコミュニケーションズ。同社がリリースした「Dragon Mobile SDK」は、iOS/Androidアプリケーションにスピーチ機能を簡単に組み込めるとあって、3週間で1200の開発企業、開発者が飛び付いた。モバイルアプリで音声入力が普通になる日も近いか。(編集部)

[石田 己津人,@IT MONOist]

 米国のニュアンスコミュニケーションズ(以下、ニュアンス)は、20年以上にわたって音声認識・音声合成のスピーチ技術を培ってきた専門ベンダである。実際、同社のスピーチ技術は、コンピュータテレフォニー製品で圧倒的なシェアを誇るほか、最近では車載製品や医療機器の組み込み製品にも採用される。車載分野でいえば、フォードモーターがマイクロソフトと共同開発した車内情報通信システム「Sync」で使われ、携帯端末や車内機器の音声操作を可能にしている。

App Storeで累計700万本の音声認識アプリ

 そのニュアンスは、スピーチ技術の新たな需要先として、スマートフォンを中心とするモバイル市場に本腰を入れ始めた。同社モバイル部門のグローバル・ビジネス・デベロップメントディレクター、Aaron Masih氏は「スマートフォンではアプリケーションがどんどん進化しているが、操作性や視覚性に制限があり、その進化を生かし切れない。われわれのスピーチ技術はそのギャップを埋める可能性を持っている」と話す。モバイル市場では当然、iOSとAndroidの二大プラットフォームに照準を合わせる。

photo モバイル部門のグローバル・ビジネス・デベロップメントディレクター、Aaron Masih氏

 iOSアプリケーションの自社製品としては、「Dragon Search」と「Dragon Dictation」の2つを無償提供する。端末側から音声データをサーバへ転送し、音声認識を行った結果を端末へ返すクラウドコンピューティング型である。Dragon Searchでは、スライドバーで検索エンジン(Google、Yahoo!、Twitter、Wikipediaなど)、検索ワードを音声入力すれば、即座に検索結果が表示される。Dragon Dictationは音声とキーボードで入力・編集したテキストをメールやTwitter、Facebookへ直接投稿できる。

 この2つのiOSアプリケーションの多言語展開を始めたのは2010年秋からだが、「すでにダウンロード件数は全世界で累計700万以上に達している」(Masih氏)という。実際、日本のApp StoreでもDragon Dictationはビジネス/フリーのカテゴリでトップを占めており(2011年2月初旬現在)、「他社の類似製品よりも認識精度は高い」といった高い評価のレビューも見受けられる。

 一方、Android端末向けアプリケーションでは「Flex T9」と呼ぶ有償製品を投入している。ニュアンスの携帯端末向けテキスト入力システム「XT9 Smart Input」(国内携帯電話にも採用される「T9」の拡張版)をベースに、1つのインターフェイスで音声認識、手書き入力、キーボードでのトレース・タップ入力が行えるものだ。また、米携帯電話キャリであるT-モバイルが販売する台湾HTC製Android携帯「myTouchシリーズ」でもニュアンスの音声認識技術が使われ、音声コマンドによりメール送信などの操作が可能となっている。

photo Android端末向けアプリケーション「Flex T9」のインターフェイス

スピーチ機能を組み込めるSDK投入

 さらにニュアンスは、一気にモバイル向けスピーチ技術での“デファクト”を狙い、モバイルアプリケーション開発者に向けて、スピーチ機能をアプリケーションに組み込むための開発キット「Dragon Mobile SDK」を2011年1月中旬にリリースした。

 Dragon Mobile SDKは、iOS 3.0/4.0とAndroid 2.1以上をサポート。専用フレームワーク「Speech Kit framework」のほか、サンプルアプリケーションやドキュメントを提供する。Speech Kit frameworkを使うと、ニュアンスが運用するサーバ上の音声認識・音声合成エンジンと連携するライブラリ(音声認識オブジェクト、オーディオエンジン、音声検出、エンコーディング、ネットワーク転送)をアプリケーション側に実装できる。

photo スピーチ機能を組み込める開発キット「Dragon Mobile SDK」

 Speech Kit frameworkは取り扱いも容易なようだ。例えば、iOSアプリケーションの場合、その統合開発環境「Xcode」のプロジェクトにSpeech Kit frameworkを追加すれば、UIKit、Foundation、CoreGraphicなどのiOS標準フレームワークと同様に扱える。Masih氏は「実際にSDKを利用した開発者の中には、1時間で機能を組み込むことに成功したケースもある。不慣れな開発者に向けては、サポートする体制も用意している」と話す。

 Dragon Mobile SDK自体は無償。また、90日間はニュアンスが用意し検証サーバも無償利用できる。つまり、開発段階で開発者への余計な負担は発生しない。アプリケーションが商用化され、実際にユーザーがニュアンスの本番サーバと接続するようになった段階で、従量制もしくはサブスクリプション制でサーバ使用料が発生する。スピーチ機能の利用頻度が低いアプリケーションなら従量制、高いならサブスクリプション制を選べばよいわけだ。

       1|2 次のページへ

Copyright© 2017 ITmedia, Inc. All Rights Reserved.