原田・黒瀬・椋田研究室

2026 年発表論文概要

Language Resources and Evaluation Conference, LREC 2026

DEJIMA: A Novel Large-scale Japanese Dataset for Image Captioning and Visual Question Answering
Toshiki Katsube, Taiga Fukuhara, Kenichiro Ando, Yusuke Mukuta, Kohei Uehara, Tatsuya Harada
Katsube_LREC2026.png  本研究は、日本語のVision-and-Language(V&L)モデリングにおける高品質かつ大規模なリソースの不足という課題に取り組むものである。私たちは、大規模なWebデータ収集に加え、厳格なフィルタリングおよび重複排除、物体検出に基づくエビデンス抽出、さらにグラウンディング制約下での大規模言語モデル(LLM)による精緻化を統合した、スケーラブルかつ再現可能なパイプラインを提案する。 このパイプラインを用いて、画像キャプションデータセット(DEJIMA-Cap)およびVQAデータセット(DEJIMA-VQA)という2つのリソースを構築した。いずれも388万件の画像テキスト対を含み、既存の日本語V&Lデータセットを大幅に上回る規模を有している。 人手評価の結果、DEJIMAは翻訳ベースや手作業によるアノテーションで構築されたデータセットと比較して、日本らしさ(Japaneseness)および言語的自然さの両面で大幅に高い評価を示した。一方で、事実整合性については人手アノテーションコーパスと同等の水準を維持していることが確認された。さらに、画像特徴分布の定量分析により、DEJIMAが日本特有の多様な視覚領域を幅広くカバーしていることが示され、言語的・文化的代表性を視覚的側面からも補完していることが明らかとなった。 DEJIMAで学習したモデルは、複数の日本語マルチモーダルベンチマークにおいて一貫した性能向上を示し、文化的に根ざした大規模リソースがモデル性能向上において重要な役割を果たすことを実証した。 本パイプラインで使用したすべてのデータソースおよびモジュールは商用利用可能なライセンスのもとで構成されており、私たちはデータセットおよび関連メタデータを公開することで、日本語V&Lモデリングにおける今後の研究および産業応用を促進することを目指す。

IEEE International Conference on Robotics and Automation, ICRA 2026

Unsupervised Domain Adaptation for Robust Imitation Learning under Visual Perturbations
Yasuhiro Kato, Thomas Westfechtel, Jen-Yen Chang, Naoki Morihira, Akinobu Hayashi, Tatsuya Harada, Takayuki Osa
Kato_ICRA2026.png  視覚情報に基づくロボットマニピュレーションシステムは、視覚入力におけるドメインシフトの影響により、しばしば性能劣化に直面する。データ拡張は強化学習において広く用いられているが、模倣学習への適用に関しては比較的十分な研究がなされていない。我々の予備実験は、単に拡張技術を導入するだけでは模倣学習において効果的な改善が得られないことを示している。この課題に対処するため、本研究では二段階の学習プロセスを提案する。第一段階では、データ拡張を活用した敵対的特徴学習フレームワークを構築し、ドメインシフトに対する頑健性を向上させる。第二段階では、容易に収集可能な画像データのみを用いて目標環境にモデルを適応させる教師なしドメイン適応手法を導入する。ロボットタスクにおいては、視覚的ドメインシフトは初期観測のみから検出可能であることが多い。新規ドメインにおいて行動ラベル付きの完全なエピソードを収集することは高コストであるため、初期画像のみを用いた適応はデータ収集コストを大幅に削減する。この目的のため、本研究では目標ドメインの初期観測のみに依存し、ラベル付きデモンストレーションを必要としない適応戦略を開発する。シミュレーションおよび実機ロボット実装の双方における実験結果は、提案手法がソースドメインの性能を保持しつつ、照明条件の変動、背景の変更、環境的妨害要因を含む視覚的摂動に対して強化された耐性を示すことを実証している。

The Fourteenth International Conference on Learning Representations, ICLR 2026

R2-Dreamer: Redundancy-Reduced World Models without Decoders or Augmentation
Naoki Morihira, Amal Nahar, Kartik Bharadwaj, Kato Yasuhiro, Akinobu Hayashi, Tatsuya Harada
Morihira_ICLR2026.png  画像ベースのモデルベース強化学習(MBRL)における主要な課題の一つは、不要な視覚的詳細からタスクに不可欠な情報を抽出した表現を学習することにある。再構成ベースの手法は有望ではあるが、背景などタスクに関係のない広範な領域にリソースを浪費してしまうことが多い。対して、デコーダーを用いない手法はデータ拡張を活用することで頑健な表現を学習するが、表現の崩壊を防ぐためにこうした外部の正則化に依存することが汎用性を制限していた。本研究では、データ拡張に頼ることなく崩壊を防ぐ内部正則化として機能する自己教師あり学習の目的関数を備えた、デコーダーレスMBRLフレームワーク「R2-Dreamer」を提案する。本手法の核心はBarlow Twinsに着想を得た特徴の冗長性削減にあり、既存のフレームワークへ容易に統合が可能である。DeepMind Control SuiteおよびMeta-Worldを用いた実験において、R2-DreamerはDreamerV3やTD-MPC2といった強力なベースラインに匹敵する性能を示しつつ、DreamerV3比で1.59倍高速な学習を実現した。さらに、タスクに関連するオブジェクトが極めて小さいDMC-Subtleにおいては、大幅な性能向上を達成した。これらの結果は、効果的な内部正則化が、汎用性が高く高性能なデコーダーレスMBRLを可能にすることを示唆している。

Rethinking Policy Diversity in Ensemble Policy Gradient in Large-Scale Reinforcement Learning
Naoki Shitanda, Motoki Omura, Tatsuya Harada, Takayuki Osa
Shitanda_ICLR2026.png  数万規模の並列環境に強化学習をスケールさせるには、単一方策が持つ探索能力の限界を克服する必要がある。そこで近年、複数の方策を用いて多様なサンプルを収集するアンサンブル型方策勾配法は、探索を促進する手法として提案されてきた。しかし、過度な探索は探索の質を低下させたり、学習の安定性を損なったりする可能性があるため、探索空間を単に広げるだけでは必ずしも学習能力の向上につながらない。本研究では、方策アンサンブルにおける方策間の多様性が学習効率に与える影響を理論的に解析し、方策間の KL 制約によって多様性を制御する Coupled Policy Optimization(CPO)を提案する。提案手法は効果的な探索を可能にし、複数のデクスタラスマニピュレーションタスクにおいて、サンプル効率および最終性能の両面で SAPG、PBT、PPO といった強力なベースラインを上回る性能を示した。さらに、学習中の方策多様性および有効サンプルサイズの解析から、フォロワー方策がリーダー方策の周囲に自然に分布することが明らかになり、構造化された効率的な探索行動が自発的に創発していることが示された。これらの結果は、適切に制御された多様な探索こそが、アンサンブル型方策勾配法において安定かつサンプル効率の高い学習を達成する鍵であることを示している。

Cross-Embodiment Offline Reinforcement Learning for Heterogeneous Robot Datasets
Haruki Abe, Takayuki Osa, Yusuke Mukuta, Tatsuya Harada
Abe_ICLR2026.png  スケーラブルなロボット方策の事前学習は、各プラットフォームごとに高品質なデモンストレーションを収集するコストが高いことによって阻害されてきた。本研究では、オフライン強化学習とクロスエンボディメント学習を統合することで、この問題に対処する。オフライン強化学習は、専門家データに加えて大量のサブオプティマル(最適ではない)データも活用できる。一方、クロスエンボディメント学習は、多様な形態を持つロボットから得られる多様なの軌跡を集約し、普遍的なロボット制御の事前知識を獲得する。私たちは、このオフライン強化学習とクロスエンボディメントの枠組みを体系的に分析し、その強みと限界を原理的に理解できるようにした。この枠組みを評価するため、16種類の異なるロボットプラットフォームにまたがるロコモーションデータセット群を構築した。実験により、この統合アプローチはサブオプティマルな軌跡を豊富に含むデータセットでの事前学習において特に有効であり、純粋なbehavior cloningを上回ることを確認した。しかし、サブオプティマルデータの割合やロボット種類数が増えるにつれて、形態の違いに起因する勾配の衝突が学習を阻害し始めることも観測された。これを緩和するため、ロボットを形態的な類似性に基づいてクラスタリングし、各グループの勾配でモデルを更新する「エンボディメントに基づくグルーピング戦略」を導入する。この単純で静的なグルーピングにより、ロボット間の衝突が大幅に減少し、既存の衝突解決手法よりも優れた性能を示した。

WACV 2026

Semi-supervised Domain Adaptation via Mutual Alignment through Joint Error.
Dexuan Zhang, Thomas Westfechtel, Tatsuya Harada
Zhang_WACV2026.png  教師なし領域適応のための既存の手法のほとんどは、領域不変表現の学習に重点を置いています。しかし、最近の研究では、大きな領域シフト下での周辺分布の調整と結合誤差とのトレードオフにより、ターゲット領域での汎化性能が低下する可能性があることが示されています。少数のラベル付きターゲットデータポイントは適応品質を向上させますが、ラベル付きターゲットデータとラベルなしターゲットデータ間の分布シフトは見落とされがちです。そこで、ラベル付きドメインとラベルなしドメインのペア間の相互分布シフトを削減できる、半教師あり領域適応における結合誤差に対処するための新しい学習理論を提案します。さらに、仮説間の距離測定を導入することで、アルゴリズムと理論における損失関数の不一致を解消します。広範な実験により、特に大きな領域シフトとラベル付きターゲットデータが不足しているシナリオにおいて、私たちの手法は一貫してベースラインアプローチよりも優れていることが実証されています。

SceneProp: Combining Neural Network and Markov Random Field for Scene-Graph Grounding.
Keita Otani, Tatsuya Harada
Otani_WACV2026.png  複数の物体間の位置関係が文章から与えられたとき、それぞれの名詞が画像中のどの物体を指すかを特定(グラウンディング)することは、視覚と言語の対応付けにおいて重要な課題です。従来のフレーズ・グラウンディング手法は単一物体の特定には優れていますが、複雑な関係情報を扱うための構造的な帰納バイアスを欠いており、記述が詳細になるほど性能が低下する問題がありました。 この課題に対処するため、私たちは物体とその関係をグラフ構造で表す「シーングラフ・グラウンディング」に着目しました。しかし既存手法は、この表現を十分に活かせておらず、関係が増えるほどかえって性能が落ちるという問題を抱えていました。 そこで私たちは SceneProp を提案します。SceneProp はシーングラフ・グラウンディングをマルコフ確率場(MRF)の最大事後確率(MAP)推論問題として再定式化し、グラフ全体を対象とした大域的な推論によって、すべての関係を同時に満たす最適な対応付けを求めます。また、Belief Propagation を深層学習フレームワーク上で自動微分可能に実装することで、エンドツーエンドでの学習を実現しました。 4つのベンチマークでの実験により、SceneProp は既存手法を大幅に上回る精度を示しました。特に、関係情報が増えるほど精度が向上するという特徴を初めて実証し、詳細な関係性がグラウンディング性能を高めることを示しました。