ESEC2009イベントレポート

ESEC2009イベントレポート

古くて新しい組み込み技術
「音声認識/音声合成」のいま

西坂 真人 @IT MONOist編集部 2009/6/3

2009年5月13〜15日の3日間、東京ビッグサイトで開催された組み込み関連展示会「第12回 組込みシステム開発技術展(ESEC2009)」。本稿は、今年のESECから新設された「音声認識・音声合成ゾーン」にフォーカス。そこでの展示内容を紹介しながら、音声認識/音声合成の最新動向をお伝えする。(編集部)

- PR -

 マイクなどを通して入力した人の声をコンピュータで解析して認識したり、テキストデータをコンピュータにしゃべらせたり……。

 音声認識/音声合成は、コンピュータの可能性を具現化する好例として、古くから研究開発が行われてきた。それだけに“目新しさ”という印象は薄いが、組み込み技術の発達によって、近年この分野が大きく進化しているという。

 本稿では、2009年5月13〜15日の3日間、東京ビッグサイトで開催された「第12回 組込みシステム開発技術展(ESEC2009)」のレポートとして、今年のESECから新設された「音声認識・音声合成ゾーン」にフォーカス。そこでの展示内容を紹介しながら、この“古くて新しい組み込み技術”の最新動向をお伝えする。

関連リンク:
ESEC2009特集ページ
http://monoist.atmarkit.co.jp/tokusyu/esec2009/
ケータイアプリ事情−iPhoneからAndroidへの移植も
http://monoist.atmarkit.co.jp/fembedded/articles/special/esec2009/report/android/esec2009_mobilea.html
見えてきた!? ケータイ以外でのAndroidの適用例
http://monoist.atmarkit.co.jp/fembedded/articles/special/esec2009/report/android/esec2009_androida.html

メイドさんが対話で“ご案内します”――ATR-Trek


 「何かごよう?」「人数を言ってね!」

モニタ画面に映し出されたキャラクター。なぜかメイド服

 ESECの会場にあまりそぐわない、かわいらしい“アニメボイス”が響いていたのが、ATR-Trekのブース。携帯電話向け音声認識・音声合成の技術を応用した対話型ユーザーインターフェイス「ホームコンシェルジュ」のデモンストレーションを行っていた。

 モニタ画面に映し出された(なぜかメイド服の)キャラクターに向かってしゃべりかけることで、難しい操作方法をユーザーが知らなくても、自然な会話をもとに機器の操作を誘導するのがこのホームコンシェルジュの特徴。ブースでは航空機のチケット予約を音声だけで行える事例を紹介していた。

 「音声認識・音声合成を用いることで、機器の操作も直感的で楽しい“対話”へと変わる。コンシェルジュに女性キャラクターを立てたのも、より自然な対話を促すため。え? なんでメイド服なのかって? それも自然な対話のためで……」(同社)。このあたりは担当者の趣味嗜(し)好が反映されたようだ。

 特筆したいのは、音声認識の精度。来場者でごったがえすESECの会場内は雑音があふれており、音声認識システムにとってはかなり過酷な条件といえる。その中で、ユーザーが発した音声を的確に認識し、あたかも有人オペレーター相手に電話でチケット予約するようにテンポよく発券までの手続きが行えた。また、その対話のやりとりも「前の方でできれば通路側の席がいいんだけど。あ、でも真ん中の列はいやだな」という自然な会話を認識して答えてくれる。

コンシェルジュ画面(左)ESEC会場では航空機チケット予約を音声で行うデモを実施

 「対話に必要な3つの要素(耳=音声認識、脳=対話制御アルゴリズム、口=音声合成)を1システムにまとめている。病院の予約やケータリングサービスの注文、券売機、無人受付機、ロボットなどに応用できるだろう」(同社)。

関連リンク:
ATR-Trek
http://www.atr-trek.co.jp/

会話からキーワードを抽出――アニモ

 富士通のベンチャー第1号企業として1994年に設立したアニモは、音や音声をキーテクノロジーにしたソフト開発を行っている。ESECの同社ブースでは、音声合成ソフト「FineSpeech2」や音声認証や話者識別を行う「VoicePassport」など同社の代表的な音声認識/音声合成ソリューションが紹介されていたほか、参考出展として開発中の音声認識技術「KeywordFinder」の紹介も行われていた。

 KeywordFinderは、自然な発話の中の決められた単語やフレーズを認識して抽出(キーワードスポッティング)する技術。例えば自動車の運転中に「帰りは横浜のレストランに寄ろう。ステーキがいいな〜」と会話をしたとき、KeywordFinderがその会話から「横浜」「レストラン」「ステーキ」という単語を抽出してカーナビの検索ワードとして入力。カーナビ画面に該当する店舗情報を表示するといった便利なシステムも構築できるという。

KeywordFinderの概要

 「KeywordFinderは、従来のコマンド入力のほかに、話題の抽出など音声認識の用途を広げる。会話全部を認識するわけではないので、低処理量でメモリ消費も少なくて済むため組み込み向けといえる。カーナビのほか、ロボットやデジタルサイネージなどにも応用できるだろう」(同社)。

関連リンク:
アニモ
http://www.animo.co.jp/

>>次ページでは、音声認識技術をAndroidケータイに組み込んだ事例などを紹介

  • 連載バックナンバー
  • 全記事インデックス
  • 組み込み開発トップ
  • MONOistトップ

スキルアップ/キャリアアップ(JOB@IT)

スポンサーからのお知らせ

- PR -
@IT Sepcial

震災関連・復興支援情報

震災関連・復興支援情報
@IT MONOist/EE Times Japan/環境メディアの製造業技術者向け3メディアを中心に、震災関連/復興支援情報を集めました

次世代エンベデッドコーナー

次世代エンベデッド
“次世代”の組み込み機器を開発するエンジニアを支援するコーナー。新潮流・新技術をインタビューやコラム、解説記事で分かりやすく紹介!

Windows Embeddedコーナー

Windows Embedded
Windows Embedded専門コーナー。Windows Embedded StandardやWindows Embedded CEをはじめとする「Windows Embedded」ファミリの最新動向や技術情報をお届けします!!

Androidコーナー

Android
Android専門コーナー。組み込みデバイスへの適用からアプリケーション開発、イベントレポート、ニュースなどAndroidに関するさまざまな技術情報がここに集結!!

@IT MONOist 求人情報

- PR -