オープンな日本語Vision&Languageモデル「Asagi」の開発

2025-02-25 2025-02-25 OsaTakayuki

本研究室では、142億パラメータを持つ、日本語に特化したオープンなマルチモーダルモデルを開発しました。本研究の成果は、3月に開催される言語処理学会第31回年次大会（NLP2025）で発表予定です。

本研究では、日本語のマルチモーダルモデルの訓練に不可欠な、大量の画像と日本語テキストのペアデータセットの構築を大きな課題と捉えました。英語圏のマルチモーダルモデルと比較すると、日本語の画像・テキストペアデータは大きく不足しています。

我々は、Webからクロールした画像を活用し、英語のマルチモーダルモデルや日本語言語モデルを用いて、日本語のデータセットを合成することでこの課題を解決しました。モデルは、LLM-jpによってリリースされた日本語LLM（ https://huggingface.co/llm-jp/llm-jp-3-13b-instruct ）、画像エンコーダ（ https://huggingface.co/google/siglip-so400m-patch14-384 ）、両者を接続する2層の線形層によって構成されています。
訓練に用いたデータセットとしては、既存のデータセットと、新規に構成した合成データセットを合わせて約2000万件の画像・テキストペアデータを用いました。
計算資源は、H100が8枚搭載されたサーバーを最大24ノード用いました。

モデルのアーキテクチャ

開発されたモデルは、大規模言語モデル（GPT-4oなど）によって生成された出力の利用が制限されているデータを使用しないオープンなモデルとしては、各種ベンチマークで最高のスコアを達成しました。この日本語特化マルチモーダルモデルは汎用性が高く、日本語を用いたさまざまなマルチモーダルAIの研究開発に活用されることが期待されます。

今後は、本モデルのさらなるスケールアップを進めるとともに、日本語医療モデルへの展開など、より専門的な応用を目指していきます。