画像説明文生成

画像説明文生成とは

画像説明文生成（画像キャプション生成，キャプショニング）とは，入力された画像を説明する自然文を出力するタスクです．画像投稿サービスの普及により，インターネット上で収集することのできる画像の量が爆発的に増加しました．たとえば，Instagram には400億枚（2015年9月時点）の画像がありますし，Facebookには2500億枚（2013年9月時点）の画像がアップロードされています．こうした状況のおかげで，画像とその説明文のセットを大量に用意して学習させることで，特定の対象に限らない，一般的な画像に対して説明文を付与するということが現実的になりました．画像に説明文が付与できると，何が嬉しいのでしょう？例えば，下のような画像について考えてみましょう．画像認識の技術によって，画像に映っているものが「people, table, dinner」だと示すことができても，それらの関係性までは知ることができません．しかし，説明文を与えてやることで，この問題を解決することができるのです．

画像キャプションの生成例 [Ushiku+, ICCV 2015]

この研究室の独自性と成果

弊研究室は，早くから画像説明文生成というタスクの持つ重要性に着目し，研究成果を発表してきました．画像説明文生成には，そもそも自然な文を作ることそのものが難しいという問題があります．そこで我々は，既にある自然な画像説明文に着目し，「説明文を与えたい画像に似た画像をデータセットから探し，それらの画像の説明文をうまく組み合わせる」手法を提案しました．また，画像を説明しようとする際，いくつかのキーフレーズ（マルチ・キーフレーズ）が付与できることに着目し，文法を考慮しながらキーフレーズを組み合わせることで説明文を生成する手法も提案しました．これらの取り組みにより，より自然で正確な説明文を画像に付与することが可能となり，単語ではなく文から画像を検索するといった応用も含め，画像説明文生成の研究において大きな貢献を果たしました．

マルチ・キーフレーズに着目した生成手法 [Ushiku+, ACMMM 2012]

近年は，上述のように，深層学習による画像説明文生成の手法が注目を集めています．弊研究室も，積み重ねてきた独自の知見を活かして取り組みを進めています． 2015年に提案した “CoSMoS (Commons for Similarity and Model) ” では，画像と説明文のそれぞれの特徴量を同じ空間に射影することで，それらの類似度を測れるようになり，この類似度を使って高精度に画像説明文の生成を行うことを可能にしました．従来の画像特徴量でも高い性能を示したほか，深層学習を用いた画像特徴量抽出におけるベースラインである AlexNet と組み合わせることで，当時の世界最高性能を達成しました．他にも，従来の手法では大域的な情報は利用できても局所的な情報が取りこぼされていたのに対して，画像をいくつかの領域に分割し，それぞれの領域から得られる情報を統合して扱うという “Spatial Pyramid VLAD Coding” を導入することで，局所的な情報に依存する内容も間違えずに説明することができるようになりました．また，それまでの画像説明文生成では，事実のみを記述し，主観的な印象を含む情報（Sentiment）を取り扱うことができないという問題点がありました．これに対し，我々は，従来のObjectを扱うネットワークだけではなく，Sentimentのみを扱うネットワークを追加で学習し，これらを組み合わせることで，Sentimentを含めた説明文の生成を行うことに成功しました．

Sentimentを含む画像キャプション [Andrew+, BMVC 2016]

このほか，静止画ではなく動画に対する説明文を生成する取り組みや，画像と質問の組み合わせに対して答えを返す Visual Question Answering のタスクにも，画像説明文生成で培われた技術が活かされています．

大規模Vision&Languageモデル

2020年ごろにGPT-3が発表されて以降，特にテキスト生成の分野で，学習可能なパラメータを多く持つ大規模言語モデル（Large Language Model; LLM）の研究が俄に脚光を浴びるようになりました．モデルの大規模化は，Vision&Languageの研究においても導入され，BLIP-2，LLaVAなど，パラメータ数が数十億にものぼる大規模モデルが次々に提案されています．弊研究室においても，大規模なVision&Languageモデルの学習に取り組んでいます． 2023年度に行った研究では，既存の大規模Vision&Languageモデルにおいて，推論過程の説明能力や，ユーザーとのインタラクティブな対話を含む推論能力が不足していることに着目しました．そこで，推論過程を説明し，途中で不確実な推論があった場合に質問を生成する「Chain-of-Reasoning（CoR）」という方法を提案しています．また，こうした大規模モデルの訓練には，高性能な計算機を複数扱うマルチノード分散学習技術が不可欠となります．この研究においては，DGX A100（80GB）を4台用いたマルチノード分散学習を実施し，高速かつ大規模な学習を行っています．

今後の方向性

画像認識の精度はますます向上しており，自然文生成器についても性能の改善が続いています．画像や音，言語などのことを，それぞれ「モダリティ」と呼びますが，画像説明文生成は画像と言語という二つのモダリティを扱ったタスクということができます．このように複数のモダリティを対象とする「マルチモーダル」な研究と呼びます．弊研究室では，画像と言語にとどまらず，音や動画など，さらに多くのモダリティを含めたマルチモーダル学習の研究を進めています．

参考文献

Yoshitaka Ushiku, Yusuke Mukuta, Masataka Yamaguchi, Tatsuya Harada, “Common Subspace for Model and Similarity: Phrase Learning for Sentence Generation from Images”, In the 15th International Conference on Computer Vision (ICCV 2015), 2015.
Yoshitaka Ushiku, Tatsuya Harada, and Yasuo Kuniyoshi. Efficient Image Annotation for Automatic Sentence Generation. the 20th Annual ACM International Conference on Multimedia (ACMMM 2012), pp.549-558, 2012. (full paper, acceptance rate: 20.2%)
Yoshitaka Ushiku, Tatsuya Harada, and Yasuo Kuniyoshi. A Understanding Images with Natural Sentences. the 19th Annual ACM International Conference on Multimedia (ACMMM 2011), pp.679-682, 2011. (ACM Multimedia 2011 Grand Challenge Best Application of a Theory Framework Special Prize)
Yoshitaka Ushiku, Tatsuya Harada, and Yasuo Kuniyoshi. Automatic Sentence Generation from Images. the 19th Annual ACM International Conference on Multimedia (ACMMM 2011), pp.1533-1536, 2011. (short, acceptance rate: 36.3%)
Andrew Shin, Masataka Yamaguchi, Katsunori Ohnishi, Tatsuya Harada. Dense Image Representation with Spatial Pyramid VLAD Coding of CNN for Locally Robust Captioning. arXiv preprint arXiv:1603.09046.
Andrew Shin, Yoshitaka Ushiku, Tatsuya Harada. Image Captioning with Sentiment Terms via Weakly-Supervised Sentiment Dataset.The British Machine Vision Conference (BMVC 2016), accepted, 2016.
Kohei Uehara, Nabarun Goswami, Hanqin Wang, Toshiaki Baba, Kohtaro Tanaka, Tomohiro Hashimoto, Kai Wang, Rei Ito, Takagi Naoya, Ryo Umagami, Yingyi Wen, Tanachai Anakewat, Tatsuya Harada. Advancing Large Multi-modal Models with Explicit Chain-of-Reasoning and Visual Question Generation. arXiv preprint arXiv:2401.10005.

原田・黒瀬・椋田研究室

画像説明文生成