「CES 2017」で一躍存在感を高めたのが音声認識インタフェース「Amazon Alexa」。1年前の「CES 2016」でもその傾向はちょっと見られた、という話は吉岡佐和子氏の記事にもあるが、今回はそれどころではなく、700を超える機器がAlexaを組み込む形で展示を行っていたという報道もあるほど。

　三木泉氏の記事にもその様子がちょっと触れられているから、ご存じの読者も居られよう。そんな訳で今回はAlexaの紹介をしたいと思う。

　Alexaはそもそも何か？　というと、Amazonのクラウド「AWS」ベースの音声認識サービスというのが一番正確な表現だろう。もともとAlexaは「Amazon Echo」を支える仕組みという形で紹介されており、Echoが米国内で限定的に販売された2014年11月の時点では、Alexaはあくまでも脇役という位置付けにあった。

　これが主役の座に躍り出てきたのは2015年6月25日のことである。この日、Amazonはサードパーティーに対して「Alexa Skills Kit」というSDKと「AVS（Alexa Voice Services）」というAPIを公開した。加えて、これらのSDKやAPIを利用して開発者が自身のサービスをAlexaベースで提供できるようにするために、総額1億ドルもの「Alexa Fund」まで用意するという周到さである。

　この時点でEchoとAlexaは完全に別のものになった。というよりも、「Echoを支える仕組みのAlexa」、という位置付けから「Alexaを利用したアプリケーション例としてのEcho」という逆転現象が起きたと言ってもいい。もっともこれは、あくまで外部から見たスタンスであって、Amazon内部では当初からのロードマップ通りだったのかもしれないが。

写真1　「全ての部屋にAlexaを」であって、その手段が「echo dot」というわけだ。ちなみにこれは第2世代のecho dotである（クリックで拡大）

　その後、Echoに続き「Echo dot」と「Amazon Tap」が2016年3月に発売された。このEcho dotの説明画像（写真1）を見ると、まずAlexaがありき、という位置付けになっていることが明確である。そしてここからサードパーティーによるインプリメントが始まる。CES 2016の時点ではまだ数は少なかったが、CES 2017で700ものサービスが出てきたというのは、初期から手掛けていたサードパーティーによるインプリメントがほぼ完了した、という流れと考えて良いだろう。Amazon純正では、この後「Amazon Fire TV」にもAlexaが実装されており、要するに音声認識が必要なところには全てAlexaが使われる形だ。

「Alexa」の中身、「AVS」と「Alexa Skills Kit」

　さてそのAlexaの中身、というかAVSとAlexa Skills Kitをもう少しご紹介したい。

　まずAVSであるが、これはある意味単純な構図である（写真2）。音声をキャプチャー後、それをREST Requestの形でAVSに投げると、最終的な結果がREST Responseとして帰ってくる。最低限、このAVSへのRequest／Responseの処理だけをデバイス側に実装すれば、それでAlexaが利用できるようになる。