オープンな日本語Vision&Languageモデル「Asagi」の開発

本研究室では、142億パラメータを持つ、日本語に特化したオープンなマルチモーダルモデルを開発しました。本研究の成果は、3月に開催される言語処理学会第31回年次大会 (NLP2025)で発表予定です。

本研究では、日本語のマルチモーダルモデルの訓練に不可欠な、大量の画像と日本語テキストのペアデータセットの構築を大きな課題と捉えました。英語圏のマルチモーダルモデルと比較すると、日本語の画像・テキストペアデータは大きく不足しています。

我々は、Webからクロールした画像を活用し、英語のマルチモーダルモデルや日本語言語モデルを用いて、日本語のデータセットを合成することでこの課題を解決しました。モデルは、LLM-jpによってリリースされた日本語LLM( https://huggingface.co/llm-jp/llm-jp-3-13b-instruct )、画像エンコーダ( https://huggingface.co/google/siglip-so400m-patch14-384 )、両者を接続する2層の線形層によって構成されています。
訓練に用いたデータセットとしては、既存のデータセットと、新規に構成した合成データセットを合わせて約2000万件の画像・テキストペアデータを用いました。
計算資源は、H100が8枚搭載されたサーバーを最大24ノード用いました。

モデルのアーキテクチャ

開発されたモデルは、大規模言語モデル(GPT-4oなど)によって生成された出力の利用が制限されているデータを使用しないオープンなモデルとしては、各種ベンチマークで最高のスコアを達成しました。この日本語特化マルチモーダルモデルは汎用性が高く、日本語を用いたさまざまなマルチモーダルAIの研究開発に活用されることが期待されます。

今後は、本モデルのさらなるスケールアップを進めるとともに、日本語医療モデルへの展開など、より専門的な応用を目指していきます。

モデルの推論結果の例

詳細は、以下のプロジェクトページをご覧ください。

https://uehara-mech.github.io/asagi-vlm

開発したモデルは、以下のリンクからダウンロードできます。

https://huggingface.co/MIL-UT/Asagi-14B

https://huggingface.co/MIL-UT/Asagi-8B

https://huggingface.co/MIL-UT/Asagi-4B

https://huggingface.co/MIL-UT/Asagi-2B

また、学習に用いたコードは、以下で公開しています。

https://github.com/mil-tokyo/Megatron-VLM