オープンな日本語Vision&Languageモデル「Asagi」の開発
本研究室では、142億パラメータを持つ、日本語に特化したオープンなマルチモーダルモデルを開発しました。本研究の成果は、3月に開催される言語処理学会第31回年次大会 (NLP2025)で発表予定です。
本研究では、日本語のマルチモーダルモデルの訓練に不可欠な、大量の画像と日本語テキストのペアデータセットの構築を大きな課題と捉えました。英語圏のマルチモーダルモデルと比較すると、日本語の画像・テキストペアデータは大きく不足しています。
我々は、Webからクロールした画像を活用し、英語のマルチモーダルモデルや日本語言語モデルを用いて、日本語のデータセットを合成することでこの課題を解決しました。モデルは、LLM-jpによってリリースされた日本語LLM( https://huggingface.co/llm-jp/llm-jp-3-13b-instruct )、画像エンコーダ( https://huggingface.co/google/siglip-so400m-patch14-384 )、両者を接続する2層の線形層によって構成されています。
訓練に用いたデータセットとしては、既存のデータセットと、新規に構成した合成データセットを合わせて約2000万件の画像・テキストペアデータを用いました。
計算資源は、H100が8枚搭載されたサーバーを最大24ノード用いました。
モデルのアーキテクチャ
開発されたモデルは、大規模言語モデル(GPT-4oなど)によって生成された出力の利用が制限されているデータを使用しないオープンなモデルとしては、各種ベンチマークで最高のスコアを達成しました。この日本語特化マルチモーダルモデルは汎用性が高く、日本語を用いたさまざまなマルチモーダルAIの研究開発に活用されることが期待されます。
今後は、本モデルのさらなるスケールアップを進めるとともに、日本語医療モデルへの展開など、より専門的な応用を目指していきます。
モデルの推論結果の例
詳細は、以下のプロジェクトページをご覧ください。
https://uehara-mech.github.io/asagi-vlm
開発したモデルは、以下のリンクからダウンロードできます。
https://huggingface.co/MIL-UT/Asagi-14B
https://huggingface.co/MIL-UT/Asagi-8B
https://huggingface.co/MIL-UT/Asagi-4B
https://huggingface.co/MIL-UT/Asagi-2B
また、学習に用いたコードは、以下で公開しています。