ディープラーニングに活用できる動画キャプションデータセットを公開人工知能ニュース

千葉工業大学 人工知能・ソフトウェア技術研究センターと産業技術総合研究所、新エネルギー・産業技術総合開発機構は、3者で共同開発した、日本語キャプションの「STAIR Actions キャプションデータセット」の公開を開始した。

» 2019年04月04日 10時00分 公開
[MONOist]

 千葉工業大学は2019年3月12日、同大学人工知能・ソフトウェア技術研究センター(ステアラボ)と産業技術総合研究所、新エネルギー・産業技術総合開発機構(NEDO)が共同開発した、日本語キャプションの「STAIR Actions キャプションデータセット」を発表した。同日より、インターネット上で公開している。

 3者は2018年7月に、ディープラーニングによるきめ細かい人の動作認識の研究の一環として、日常生活シーンを中心とした動作動画10万本からなるデータセット「STAIR Actions」を公開している。

 今回はその中から7万9822本を選び、日本語で内容を記述した39万9233個のキャプションデータセットを公開した。キャプションは、1本の動画当たり平均5個使用し、「誰が」「どこで」「何をしている」の3つの要素で構成している。これをディープラーニングの訓練用データとして利用すれば、動画を日本語に変換するモデルの構築が容易になる。

 これまで、人の動作動画キャプションデータセットは、マイクロソフトの26万個が世界最大だった。今回はそれをしのぐ規模で、日本語では初の試みとなる。育児や介護など、人を対象とした分野での人工知能の活用に向け、日本語ベースの動画と言語をつなぐマルチモーダル研究の促進が期待される。

Copyright © ITmedia, Inc. All Rights Reserved.