非物体抽出にも対応した東芝の質問応答AIが「世界最高精度」を達成製造現場向けAI技術(1/2 ページ)

東芝は2021年9月13日、画像内の対象物に関する質問に答えるAI(人工知能)技術「Visual Question Answering(VQA)」について、画像内の物体だけでなく非物体に関する回答も可能にしたことを発表した。

» 2021年09月17日 14時00分 公開
[池谷翼MONOist]

 東芝は2021年9月13日、画像内の対象物に関する質問に答えるAI(人工知能)技術「Visual Question Answering(VQA)」について、画像内の物体だけでなく非物体に関する回答を可能にしたと発表した。また、同技術を用いたVQAが現時点で「世界最高精度」(東芝)の回答正解率を達成したことも確認したという。

非物体の抽出にも対応

 東芝はVQAを質問応答AIと呼称する。質問応答AIは画像内の物体特徴を抽出して、質問文から抽出したテキストの特徴と組み合わせることで、質問文に対する適切な回答を生成する。質問応答AIの研究は世界中で進んでいるが、従来技術では画像から抽出できるのは犬や人間、工具などの物体に限られており、「床」や「天井」など非物体の抽出には対応できなかった。

画像に関するテキストでの質問に回答する質問応答AI(VAQ)※出典:東芝[クリックして拡大]

 これに対して今回東芝は、画像の領域分割を行うことで、物体特徴に加えて非物体である領域特徴の抽出への対応を可能にする技術を開発した。従来技術では「床」や「天井」など非物体に関する質問に対しては、誤った回答を返しやすかった。例えば、芝生上にいる犬の写真に対して「草の上にいるのは何か」と問うと「人間」などと回答することがある。これに対して、東芝の新技術を用いた質問応答AIは「犬」と正確に回答しやすい。

非物体の抽出にも対応※出典:東芝[クリックして拡大]

 質問応答AIの世界的標準データセットを用いて、既存技術を用いたAIモデルと、既存技術と東芝の新技術を組み合わせたAIモデルとの回答正解率も比較した。事前学習なしの場合、既存技術を用いたAIモデルの正解率は65.88%だったのに対して、既存技術と東芝の新技術を組み合わせたAIモデルは66.25%を記録した。事前学習ありの場合は、既存技術を用いたAIモデルの正解率は74.00%、既存技術と東芝の新技術を組み合わせたAIモデルは74.57%だった。いずれの結果も、既存技術と東芝の新技術が既存技術のみの場合を上回り、「世界最高精度」(東芝)を達成した。なお、今回開発した技術は画像にのみ対応し、映像には対応できない。

ベンチマークテストの結果※出典:東芝[クリックして拡大]
       1|2 次のページへ

Copyright © ITmedia, Inc. All Rights Reserved.