画像説明文生成

画像説明文生成とは

画像説明文生成（画像キャプション生成，キャプショニング）とは，入力された画像を説明する自然文を出力するタスクです．画像投稿サービスの普及により，インターネット上で収集することのできる画像の量が爆発的に増加しました．たとえば，Instagram には400億枚（2015年9月時点）の画像がありますし，Facebookには2500億枚（2013年9月時点）の画像がアップロードされています．こうした状況のおかげで，画像とその説明文のセットを大量に用意して学習させることで，特定の対象に限らない，一般的な画像に対して説明文を付与するということが現実的になりました．画像に説明文が付与できると，何が嬉しいのでしょう？例えば，下のような画像について考えてみましょう．画像認識の技術によって，画像に映っているものが「people, table, dinner」だと示すことができても，それらの関係性までは知ることができません．しかし，説明文を与えてやることで，この問題を解決することができるのです．

画像キャプションの生成例 [Ushiku+, ICCV 2015]

この研究室の独自性と成果

弊研究室でも，画像説明文生成を重要なタスクとみなして取り組みを行っています．例えば，従来の手法では大域的な情報は利用できても局所的な情報が取りこぼされていたのに対して，画像をいくつかの領域に分割し，それぞれの領域から得られる情報を統合して扱うという “Spatial Pyramid VLAD Coding” を導入することで，局所的な情報に依存する内容も間違えずに説明することができるようになりました．また，それまでの画像説明文生成では，事実のみを記述し，主観的な印象を含む情報（Sentiment）を取り扱うことができないという問題点がありました．これに対し，我々は，従来のObjectを扱うネットワークだけではなく，Sentimentのみを扱うネットワークを追加で学習し，これらを組み合わせることで，Sentimentを含めた説明文の生成を行うことに成功しました．

Sentimentを含む画像キャプション [Andrew+, BMVC 2016]

このほか，静止画ではなく動画に対する説明文を生成する取り組みや，画像と質問の組み合わせに対して答えを返す Visual Question Answering のタスクにも，画像説明文生成で培われた技術が活かされています．

今後の方向性

画像認識の精度はますます向上しており，自然文生成器についても性能の改善が続いています．これら２つの融合分野である画像説明文生成についても性能が向上しており，従来のタスクでより良い成績が得られたり，これまでは実現が難しかったタスクでも良い結果が得られたりするのではないかと考えられます．画像や音，言語などのことを，それぞれ「モダリティ」と呼びますが，画像説明文生成は画像と言語という二つのモダリティを扱ったタスクということができます．このように複数のモダリティを対象とする「マルチモーダル」な研究を，弊研究室では活発に行っており，画像説明文生成の技術に根差した取り組みで大きな成果を挙げています．

参考文献

Yoshitaka Ushiku, Yusuke Mukuta, Masataka Yamaguchi, Tatsuya Harada. Common Subspace for Model and Similarity: Phrase Learning for Sentence Generation from Images, In the 15th International Conference on Computer Vision (ICCV 2015), 2015. Andrew Shin, Masataka Yamaguchi, Katsunori Ohnishi, Tatsuya Harada. Dense Image Representation with Spatial Pyramid VLAD Coding of CNN for Locally Robust Captioning. arXiv preprint arXiv:1603.09046. Andrew Shin, Yoshitaka Ushiku, Tatsuya Harada. Image Captioning with Sentiment Terms via Weakly-Supervised Sentiment Dataset. The British Machine Vision Conference (BMVC 2016), 2016.

Harada-Kurose-Mukuta Lab.

画像説明文生成