画像キャプション生成を自動化するマルチモーダルAIライブラリの提供を開始人工知能ニュース

マクニカとALBERTは、マルチモーダルAIを活用して画像キャプション生成を自動化するライブラリの提供を開始する。例えば、動画を目視で確認してレポートを作成する業務において、動画データの入力からテキスト出力までを自動化できる。

» 2021年02月26日 08時30分 公開
[MONOist]

 マクニカとALBERT(アルベルト)は2021年2月10日、マルチモーダルAI(人工知能)を活用して、画像キャプション生成を自動化するライブラリの提供を開始すると発表した。

 マルチモーダルAIとは、画像認識や音声認識などを複合的に処理、判断する特化型AIを指す。多面的な情報を統合して判断するため、熟練者レベルに近い問題処理能力を発揮する。

キャプション マルチモーダルAIのイメージ図(クリックで拡大) 出典:マクニカ

 両社が提供するのは、学習した画像とテキストデータから画像キャプションを自動生成するライブラリだ。ライブラリとして提供するため、顧客は期間やコストを把握した上で技術検証を実施し、運用を開始できる。

 利用例として、テレマティクス保険やリスクアセスメントなどにおいては、収集した動画データを目視で確認してレポートを作成する必要がある。この業務は人手が掛かることと、個人の作成能力に依存してしまう点が課題となっているが、マルチモーダルAIをレポート作成に用いることで、動画データの入力からテキストの出力までが自動化されるため、業務時間を短縮できる。

キャプション 画像キャプション生成例(クリックで拡大) 出典:マクニカ

 なお、両社は2019年11月に資本業務提携契約を締結しており、今回が両社の共同開発による初のライブラリ提供となる。

Copyright © ITmedia, Inc. All Rights Reserved.