画像説明文生成
画像説明文生成とは
画像説明文生成(画像キャプション生成,キャプショニング)とは,入力された画像を説明する文章を出力するタスクです. 画像投稿サービスの普及により,インターネット上で収集することのできる画像の量が爆発的に増加しました.たとえば,Instagram には400億枚(2015年9月時点)の画像がありますし,Facebookには2500億枚(2013年9月時点)の画像がアップロードされています. こうした状況のおかげで,画像とその説明文のセットを大量に用意して学習させることで,一般的な画像についての説明文を生成するモデルを構築することが現実的になりました. 画像についての説明文が生成できると,何が嬉しいのでしょうか? 例えば,下のような画像について考えてみましょう. 画像認識の技術では,画像に映っている物体のラベル(people, table, dinner)を特定することはできますが,それらの関係性までは知ることができません. しかし,説明文生成モデルを用いると,"Group of people sitting at a table with a dinner"というように,物体間の関係性も含めた詳細な説明を手に入れることができます.
画像キャプションの生成例 [Ushiku+, ICCV 2015]
関連研究
画像説明文生成には,大きく2つのアプローチがあります.
- 既存文の再利用
- 新規文の生成 の2つです.
既存文の再利用は,その言葉通り,データセットに含まれている説明文をそのまま再利用するアプローチです. 入力する画像と似たような要素を持ったものをデータセットの中から探して使います. ただし,この手法では,データセットにない組み合わせについてはどうしても表現することができません.
一方,新規生成の場合には,表現能力の制限を受けにくくなります.ただし,文法構造も含めて正確な文を生成しなければならないため,生成の難易度は高くなります. 近年では,深層学習技術の発展に伴い,画像認識・文章生成の両面で急速な技術発展がありました. 画像説明文生成においても,深層学習技術の恩恵により,新規生成を行う場合でも,正確な文法構造の文章で画像の内容を記述できるようになっています.
この研究室の独自性と成果
弊研究室は,早く(深層学習登場以前)から画像説明文生成というタスクの持つ重要性に着目し,研究成果を発表してきました. 画像説明文生成には,そもそも自然な文を作ることそのものが難しいという問題があります. 我々は,「既存文の再利用」アプローチを用いて,「正確」かつ「自然」な説明文の生成に取り組みました. 具体的には,「説明文を与えたい画像に似た画像をデータセットから探し,それらの画像の説明文をうまく組み合わせる」という手法を提案しました. また,画像を説明しようとする際,いくつかのキーフレーズ(マルチ・キーフレーズ)が付与できることに着目し,文法を考慮しながらキーフレーズを組み合わせることで説明文を生成する手法も提案しました. これらの取り組みにより,より自然で正確な説明文を画像に付与することが可能となり,画像説明文生成の研究において大きな貢献を果たしました. さらに,この技術を応用し,単語ではなく文章による画像検索を実現することにも成功しました.
マルチ・キーフレーズに着目した生成手法 [Ushiku+, ACMMM 2012]
近年は,深層学習による画像説明文生成の手法が注目を集めています. 深層学習による画像説明文生成の特徴は,データセットの文章を再利用するのではなく,完全に新規な文章を生成するという点にあります. 弊研究室も,積み重ねてきた独自の知見を活かして,深層学習による説明文生成についても取り組みを進めています. 2015年に提案した “CoSMoS (Commons for Similarity and Model) ” では,画像と説明文のそれぞれの特徴量を同じ空間に射影することで,それらの類似度を測ることが可能になり,この類似度を使って高精度に画像説明文の生成を行うことを可能にしました. 従来の画像特徴量でも高い性能を示したほか,深層学習を用いた画像特徴量抽出におけるベースラインである AlexNet と組み合わせることで,当時の世界最高性能を達成しました. 他にも,従来の手法では大域的な情報は利用できても局所的な情報が取りこぼされていたのに対して,画像をいくつかの領域に分割し,それぞれの領域から得られる情報を統合して扱うという “Spatial Pyramid VLAD Coding” を導入することで,局所的な情報に依存する内容も間違えずに説明することができるようになりました.
また,それまでの画像説明文生成では,事実のみを記述し,主観的な印象を含む情報(Sentiment)を取り扱うことができないという問題点がありました. これに対し,我々は,従来のObjectを扱うネットワークだけではなく,Sentimentのみを扱うネットワークを追加で学習し,これらを組み合わせることで,Sentimentを含めた説明文の生成を行うことに成功しました. さらに,単一の文章ではなく,複数の文章からなり主観的な感情変化をお含むような「ストーリー」の生成にも取り組んでいます. この研究では,ストーリー中の主観的な感情変化を「Emotion Arc」として指定することで,画像についての感情変化を伴うストーリー生成を行うことができます. 画像からストーリーを生成する技術は,AIの創造性や,クリエイター支援といった観点からも,今後注目を集める分野と考えられます.
Sentimentを含む画像キャプション [Andrew+, BMVC 2016]
今後の方向性
画像認識モデルや文章生成モデルは,それぞれ活発に研究が行われ,間断なく性能の改善が続いています. これら2つの融合分野である画像説明文生成についても,それぞれの研究分野の知見を取り入れることで,ますます発展しています. 画像や音,言語などのことを,それぞれ「モダリティ」と呼びますが,画像説明文生成は画像と言語という2 つのモダリティを扱ったタスクということができます.このように複数のモダリティを対象とする「マルチモーダル」な研究を,弊研究室では活発に行っており,画像説明文生成の技術に根差した取り組みで大きな成果を挙げています.
参考文献
- Yoshitaka Ushiku, Yusuke Mukuta, Masataka Yamaguchi, Tatsuya Harada, “Common Subspace for Model and Similarity: Phrase Learning for Sentence Generation from Images”, In the 15th International Conference on Computer Vision (ICCV 2015), 2015.
- Yoshitaka Ushiku, Tatsuya Harada, and Yasuo Kuniyoshi. Efficient Image Annotation for Automatic Sentence Generation. the 20th Annual ACM International Conference on Multimedia (ACMMM 2012), pp.549-558, 2012. (full paper, acceptance rate: 20.2%)
- Yoshitaka Ushiku, Tatsuya Harada, and Yasuo Kuniyoshi. A Understanding Images with Natural Sentences. the 19th Annual ACM International Conference on Multimedia (ACMMM 2011), pp.679-682, 2011. (ACM Multimedia 2011 Grand Challenge Best Application of a Theory Framework Special Prize)
- Yoshitaka Ushiku, Tatsuya Harada, and Yasuo Kuniyoshi. Automatic Sentence Generation from Images. the 19th Annual ACM International Conference on Multimedia (ACMMM 2011), pp.1533-1536, 2011. (short, acceptance rate: 36.3%)
- Andrew Shin, Masataka Yamaguchi, Katsunori Ohnishi, Tatsuya Harada. Dense Image Representation with Spatial Pyramid VLAD Coding of CNN for Locally Robust Captioning. arXiv preprint arXiv:1603.09046.
- Andrew Shin, Yoshitaka Ushiku, Tatsuya Harada. Image Captioning with Sentiment Terms via Weakly-Supervised Sentiment Dataset.The British Machine Vision Conference (BMVC 2016), 2016.
- Kohei Uehara†, Yusuke Mori† (†equal contribution), Yusuke Mukuta and Tatsuya Harada. ViNTER: Image Narrative Generation with Emotion-Arc-Aware Transformer. The 1st International Workshop on Multimodal Understanding for the Web and Social Media (WWW 2022, Workshop), 2022.