国立情報学研究所は2018年12月25日、高品質な音声を高速に合成する手法「ニューラル・ソースフィルター・モデル（NSF法）」を開発したと発表した。人間の肉声に近い高品質な音声波形を生成できるだけでなく、ニューラルネットワークの学習も安定して行える。同研究所コンテンツ科学研究系准教授の山岸順一氏らの研究チームによる成果となる。

　NSF法は、深層学習によって、1960年に発表された音声生成モデル「ソースフィルター・ボコーダ法」を発展させた新たな手法となる。ニューラルネットワークをソースフィルター・ボコーダ法に導入し、人間の肉声に近い高品質な音声波形を生成する。

　ニューラルネットワークの機械学習のために必要な音声データは、1時間程度となる。簡易な構造のニューラルネットワークにより、パラメーターの調整なしに正しい予測結果を得られる。また、大規模な検証により、深層学習を駆使し、人間の肉声に近い高品質な音声波形が生成できる音声合成手法「WaveNet法」から生成された音声と同等に高品質であることが示されている。

　NSF法は、海外の有力ICT企業の特許技術とは理論が異なる。NSF法の活用によって音声合成の技術開発の進展が期待できるため、NSF法のソースコードは無償で公開するという。現在、今回の評価に使ったソースコードや学習済みのモデルなど機械学習データのサンプル、実際に合成された日本語および英語の音声データのサンプルを公開している。

古くて新しい組み込み技術「音声認識／合成」のいま
古くから研究開発されてきた音声認識／音声合成。近年この分野が大きく進化している。ESECで見た最新動向を紹介しよう
VRに燃えろ、キャラに萌えろ――VTuberって何だ？「VTuberハッカソン長野・塩尻大会」
最近、自分の周辺で「ハッカソン」という言葉を見聞きすることが多くなりました。でもまだまだ「ハッカソンってなに？どういうことをするの？」と質問されることのほうが多く、その内容が当たり前に知られているわけではありません。
小型IoT機器向けに、低コストで音声合成機能を実装できるミドルウェアを開発
アクエストは、日本語音声合成ミドルウェア「AquesTalk」をベースとした、省メモリで動作する日本語テキスト音声合成ミドルウェア「AquesTalk-KM（仮称）」を開発した。日本語解析処理のデータ構造や使用メモリの管理方法を改良している。
機械との対話が自然かつ滑らかに、ヤマハの自然応答技術を電子工作基板に搭載
スイッチサイエンスは、ヤマハが開発した自然応答技術「HEARTalk」を搭載する電子工作向け基板「HEARTalk UU-001」の販売を開始する。HEARTalkを使えば、従来は単調だった機械の応答音声が、人間にとって自然な、強さ、抑揚、間、高さで返ってくるようになるという。
「印象指定」でイメージ通りの音声合成、東芝が開発
東芝が年齢や性別、明るさなどの特徴を指定することで、利用イメージに即したさまざまな合成音声を生成できる「声デザイン技術」を開発した。
留守番電話のメッセージを文字化する、音声認識エンジンを発売
アドバンスト・メディアは、録音メッセージを文字化する留守番電話専用の音声認識エンジンを発売した。留守番電話に特化した言語モデルをディープラーニング技術によって学習させたもので、認識率が向上している。