Research - 原田・黒瀬・椋田研究室 Blog

【論文紹介】SceneProp: Combining Neural Network and Markov Random Field for Scene-Graph Grounding

2026-04-30

視覚グラウンディング（visual grounding）は、文章などの特定物体を指し示す記述から画像内の対象物を特定するタスクであり、ロボット操作における指示文の理解や、対象物の特定が不可欠な画像に対する質問応答など、さまざまな応用において重要な役割を果たします。当研究室から発表された論文 "SceneProp: Combining Neural Network and Markov Random Field for Scene-Graph Grounding" では、文章の代わりに物体間の関係性を構造化した形式を用いることにより、GPT-4o など既存の手法では不可能だった複雑なグラウンディングを可能にしました。本論文は、主要なコンピュータビジョンの国際学会のひとつであるWinter Conference on Applications of Computer Vision (WACV) 2026にて発表されました。

この成果により、ロボットにおいて指示文へ追従する精度の向上や、視覚言語モデルと組み合わせることにより、さらなる画像に対する質問応答の性能向上が期待できます。

Research

【論文紹介】Dr. RAW: Towards General High-Level Vision from RAW with Efficient Task Conditioning

2026-04-13

標準的なコンピュータビジョンではRGB画像が一般的に使用されていますが、RAWデータを直接扱う方法も注目を集めています。2025年12月にアメリカのサンディエゴで開催された機械学習のトップカンファレンス Neural Information Processing Systems (NeurIPS) 2025で、私たちは、カメラの RAW データから物体検出やセグメンテーションなどの高度なビジョンタスクを効率的に実行するための統合フレームワーク「Dr. RAW」についての論文 "Dr. RAW: Towards General High-Level Vision from RAW with Efficient Task Conditioning" を発表しました。

このフレームワークにより、事前学習済みモデルにセンサーの事前情報を賢く組み込むことで、堅牢で汎用的な視覚システムを構築することが可能になります。

Research

【論文紹介】Improved 3D Scene Stylization via Text-Guided Generative Image Editing with Region-Based Control

2026-03-05

3D空間の再構築、および領域ごとの緻密な制御を伴う編集技術は、エンターテインメント領域の3Dアセットやデジタルツインの効率的な編集・更新を可能にする基盤となります。当研究室から発表された論文 "Improved 3D Scene Stylization via Text-Guided Generative Image Editing with Region-Based Control" では、テキスト指示に基づいて、領域ベースの制御を可能にした3D Gaussian Splatting [1] シーン向けの改善された3Dスタイル転写手法を提案しています。本研究は主要なグラフィックスの国際学会のひとつであるPacific Graphics 2025にて発表されました。

この成果により、映画やゲーム制作におけるアセット制作の効率化が図ら
れるだけでなく、実社会に即したデジタルツインの高度な構築・編集が可能になります。これにより、都市計画における景観シミュレーションや、embodied AIの学習に不可欠な3D環境の整備といった、幅広い産業応用への貢献が期待されます。

Research

【論文紹介】DEJIMA: 大規模な日本語画像キャプション・視覚的質問応答データセットの構築

2026-02-18

近年、画像の内容を言葉で説明したり、画像について質問に答えたりする「Vision-and-Language（V&L）」と呼ばれるAI技術が急速に発展しています。こうした技術の性能は、学習に使える画像とテキストのペアのデータセットの質や量に大きく左右されます。ところが、日本語で使える大規模なデータセットはこれまでほとんど存在しませんでした。

今年5月に開催される国際会議 LREC 2026 にて、当研究室から、日本語の画像キャプション（画像の内容を文章で説明したもの）と VQA（Visual Question Answering：画像についての質問に回答するタスク）に使える大規模データセット「DEJIMA」を提案する論文を発表予定です。DEJIMA は、約388万組の画像とテキストのペアを含み、従来の日本語データセットの20倍以上の規模を達成しています。

Research

【論文紹介】A Theory of Learning Unified Model via Knowledge Integration from Label Space Varying Domains

2026-02-16

「ドメイン適応（Domain Adaptation）」は、十分な教師情報がない目標のドメインでうまく働くモデルを、十分な教師ラベルを持つ別のドメインの情報を活用して作成する手法です。この手法は目覚ましい成功を収めていますが、既存のドメイン適応システムでは、複数のソースドメインから学習した知識を統合することを目指す場合に、問題設定を簡略する必要があり、現実問題にうまく対応できませんでした。2025年6月にアメリカのナッシュビル、Music City Center にて開催された国際会議 The IEEE / CVF Computer Vision and Pattern Recognition Conference (CVPR) 2025 では、実世界でしばしば出現する「ソースフリー」のシナリオに対応するためのアルゴリズムを提案する論文 “A Theory of Learning Unified Model via Knowledge Integration from Label Space Varying Domains” を発表しました。この成果により、将来的には、エッジデバイスなどで蓄積された知識を統合し、より性能の高いモデルを効率的に構築出来る事が期待されます。

Research

【論文紹介】Intend to Move: A Multimodal Dataset for Intention-Aware Human Motion Understanding

2026-02-16

Embodied AIや人間行動理解の分野において、人間がどのように動き、周囲とどう関わるかを理解することは、AIシステムが人間と共生し、協調するために不可欠な技術です。2025年12月にアメリカのサンディエゴで開催された機械学習のトップカンファレンス Neural Information Processing Systems (NeurIPS) 2025では、人間の動作の背後にある「意図」に着目した大規模マルチモーダルデータセット「Intend to Move (I2M)」を提案する論文 "Intend to Move: A Multimodal Dataset for Intention-Aware Human Motion Understanding" を発表しました。

この成果により、AIは人間の動作を単なる関節の動きとしてだけでなく、「なぜそう動くのか」という意図と紐づけて学習することが可能になります。将来的には、人間の意図を汲み取って先回りして手助けするロボットや、高度な対人インタラクションを行うAIの実現に役立つ可能性があります。

Research

【論文紹介】FUSE: A Hybrid Speech Enhancement System for Real-World Noisy Environments

2025-12-26

騒音の大きな場所で、電話に出ようとしているところを想像してみてください。
そのような環境でも、通話の相手は、あなたが何を喋っているか理解してくれるでしょう。しかし、録音して後から聞き返してみると、とても酷い音になっているはずです。背景の音がうるさいですし、聞き取りにくい単語があり、音が変に歪んでいるかもしれません。“Speech Enhancement （音声強調）” の目的は、そのような音を、コンピュータによって綺麗にする (clean up) ことです。

私たちは、様々な言語や、多様なノイズに対応し、さらに、低品質な録音にも対応できる「ユニバーサル」な音声強調を行うことを目標に、「FUSE」というシステムを開発しました。今年6月にオランダのロッテルダムで開催された国際会議 Interspeech 2025 の URGENT 2025 Challenge に参加したこのシステムは、総合で３位となり、リスニング品質でトップレベルの成績を納めました。

Research

【論文紹介】Luminance-GS: Adapting 3D Gaussian Splatting to Challenging Lighting Conditions with View-Adaptive Curve Adjustment

2025-11-30

「3D Gaussian Splatting (3DGS)」は、3Dシーンの再構成や、新しい視点からの画像合成に活用される技術です。照明の条件が良い場合には優れた性能を発揮しますが、照明条件が悪い場合には脆弱であり、現実世界においてはそのような「過酷な照明条件」が多くあります。今年6月にアメリカのナッシュビル、Music City Center にて開催された国際会議 The IEEE / CVF Computer Vision and Pattern Recognition Conference (CVPR) 2025 では、3DGSの高い効率性を保ちながら、様々な過酷な照明条件に対してロバストな手法「Luminance-GS」を提案する論文 "Luminance-GS: Adapting 3D Gaussian Splatting to Challenging Lighting Conditions with View-Adaptive Curve Adjustment" を発表しました。この成果により、3DGS の利点を活かしたまま、過酷な照明条件に対してロバストな新しい視点合成が可能にになります。将来的には、3DGSをより実世界に近い応用分野へと展開することが可能性となります。

Research

【論文紹介】Offline Reinforcement Learning with Wasserstein Regularization via Optimal Transport Maps

2025-10-29

オフライン強化学習（Reinforcement Learning, RL）は、ロボティクスのようにデータ収集が高コストな状況において有用な手法です。今年8月にカナダのエドモントンで開催された国際会議 Reinforcement Learning Conference (RLC) 2025 では、オフラインRLにおける大きな課題の一つである「分布のずれ」を緩和する新たな手法「Q-DOT」を提案する論文 "Offline Reinforcement Learning with Wasserstein Regularization via Optimal Transport Maps" を発表しました。この成果により、新しいデータを追加で取得しなくても、より安全で安定した学習を行うことが可能になります。無謀な行動を実際に行うことなく効率的に学べるため、自動運転やロボット操作に貢献できる可能性があります。

Research

【論文紹介】Gradual Transition from Bellman Optimality Operator to Bellman Operator in Online Reinforcement Learning

2025-09-29

「強化学習（Reinforcement Learning, RL）」は機械学習の一種で、たとえば、ロボットやゲームの操作を学ぶために使われます。今年7月にカナダのバンクーバーで開催された国際会議 International Conference on Machine Learning (ICML) 2025 では、連続動作向けのRLアルゴリズムに関して、ベルマン最適作用素からベルマン作用素へ徐々に移行する減衰手法を提案する論文 "Gradual Transition from Bellman Optimality Operator to Bellman Operator in Online Reinforcement Learning" を発表しました。この成果により、ロボットが少ない試行回数で効率的に学習できるようになり、これまで学習コストの大きさのために良く学習できなかったいくつかのタスクの学習が可能になりました。将来的には、産業用ロボットや自動運転車など「学習コストが高い分野」で特に役立つ可能性があります。