画像説明文生成

画像説明文生成とは

画像説明文生成（画像キャプション生成，キャプショニング）とは，入力された画像を説明する自然文を出力するタスクです．画像投稿サービスの普及により，インターネット上で収集することのできる画像の量が爆発的に増加しました．たとえば，Instagram には400億枚（2015年9月時点）の画像がありますし，Facebookには2500億枚（2013年9月時点）の画像がアップロードされています．こうした状況のおかげで，画像とその説明文のセットを大量に用意して学習させることで，特定の対象に限らない，一般的な画像に対して説明文を付与するということが現実的になりました．画像に説明文が付与できると，何が嬉しいのでしょう？例えば，下のような画像について考えてみましょう．画像認識の技術によって，画像に映っているものが「people, table, dinner」だと示すことができても，それらの関係性までは知ることができません．しかし，説明文を与えてやることで，この問題を解決することができるのです．

画像キャプションの生成例 [Ushiku+, ICCV 2015]

この研究室の独自性と成果

弊研究室は，早くから画像説明文生成というタスクの持つ重要性に着目し，研究成果を発表してきました．画像説明文生成には，そもそも自然な文を作ることそのものが難しいという問題があります．そこで我々は，既にある自然な画像説明文に着目し，「説明文を与えたい画像に似た画像をデータセットから探し，それらの画像の説明文をうまく組み合わせる」手法を提案しました．また，画像を説明しようとする際，いくつかのキーフレーズ（マルチ・キーフレーズ）が付与できることに着目し，文法を考慮しながらキーフレーズを組み合わせることで説明文を生成する手法も提案しました．これらの取り組みにより，より自然で正確な説明文を画像に付与することが可能となり，単語ではなく文から画像を検索するといった応用も含め，画像説明文生成の研究において大きな貢献を果たしました．

マルチ・キーフレーズに着目した生成手法 [Ushiku+, ACMMM 2012]

近年は，上述のように，深層学習による画像説明文生成の手法が注目を集めています．弊研究室も，積み重ねてきた独自の知見を活かして取り組みを進めています． 2015年に提案した “CoSMoS (Commons for Similarity and Model) ” では，画像と説明文のそれぞれの特徴量を同じ空間に射影することで，それらの類似度を測れるようになり，この類似度を使って高精度に画像説明文の生成を行うことを可能にしました．従来の画像特徴量でも高い性能を示したほか，深層学習を用いた画像特徴量抽出におけるベースラインである AlexNet と組み合わせることで，当時の世界最高性能を達成しました．他にも，従来の手法では大域的な情報は利用できても局所的な情報が取りこぼされていたのに対して，画像をいくつかの領域に分割し，それぞれの領域から得られる情報を統合して扱うという “Spatial Pyramid VLAD Coding” を導入することで，局所的な情報に依存する内容も間違えずに説明することができるようになりました．また，それまでの画像説明文生成では，事実のみを記述し，主観的な印象を含む情報（Sentiment）を取り扱うことができないという問題点がありました．これに対し，我々は，従来のObjectを扱うネットワークだけではなく，Sentimentのみを扱うネットワークを追加で学習し，これらを組み合わせることで，Sentimentを含めた説明文の生成を行うことに成功しました．

Sentimentを含む画像キャプション [Andrew+, BMVC 2016]

このほか，静止画ではなく動画に対する説明文を生成する取り組みや，画像と質問の組み合わせに対して答えを返す Visual Question Answering のタスクにも，画像説明文生成で培われた技術が活かされています．

今後の方向性

画像認識の精度はますます向上しており，自然文生成器についても性能の改善が続いています．これら２つの融合分野である画像説明文生成についても性能が向上しており，従来のタスクでより良い成績が得られたり，これまでは実現が難しかったタスクでも良い結果が得られたりするのではないかと考えられます．画像や音，言語などのことを，それぞれ「モダリティ」と呼びますが，画像説明文生成は画像と言語という二つのモダリティを扱ったタスクということができます．このように複数のモダリティを対象とする「マルチモーダル」な研究を，弊研究室では活発に行っており，画像説明文生成の技術に根差した取り組みで大きな成果を挙げています．

参考文献

Yoshitaka Ushiku, Yusuke Mukuta, Masataka Yamaguchi, Tatsuya Harada, “Common Subspace for Model and Similarity: Phrase Learning for Sentence Generation from Images”, In the 15th International Conference on Computer Vision (ICCV 2015), 2015.
Yoshitaka Ushiku, Tatsuya Harada, and Yasuo Kuniyoshi. Efficient Image Annotation for Automatic Sentence Generation. the 20th Annual ACM International Conference on Multimedia (ACMMM 2012), pp.549-558, 2012. (full paper, acceptance rate: 20.2%)
Yoshitaka Ushiku, Tatsuya Harada, and Yasuo Kuniyoshi. A Understanding Images with Natural Sentences. the 19th Annual ACM International Conference on Multimedia (ACMMM 2011), pp.679-682, 2011. (ACM Multimedia 2011 Grand Challenge Best Application of a Theory Framework Special Prize)
Yoshitaka Ushiku, Tatsuya Harada, and Yasuo Kuniyoshi. Automatic Sentence Generation from Images. the 19th Annual ACM International Conference on Multimedia (ACMMM 2011), pp.1533-1536, 2011. (short, acceptance rate: 36.3%)
Andrew Shin, Masataka Yamaguchi, Katsunori Ohnishi, Tatsuya Harada. Dense Image Representation with Spatial Pyramid VLAD Coding of CNN for Locally Robust Captioning. arXiv preprint arXiv:1603.09046.
Andrew Shin, Yoshitaka Ushiku, Tatsuya Harada. Image Captioning with Sentiment Terms via Weakly-Supervised Sentiment Dataset.The British Machine Vision Conference (BMVC 2016), accepted, 2016.

原田・黒瀬・椋田研究室

画像説明文生成