【論文紹介】FUSE: A Hybrid Speech Enhancement System for Real-World Noisy EnvironmentsNew!!
騒音の大きな場所で、電話に出ようとしているところを想像してみてください。
そのような環境でも、通話の相手は、あなたが何を喋っているか理解してくれるでしょう。しかし、録音して後から聞き返してみると、とても酷い音になっているはずです。背景の音がうるさいですし、聞き取りにくい単語があり、音が変に歪んでいるかもしれません。“Speech Enhancement (音声強調)” の目的は、そのような音を、コンピュータによって綺麗にする (clean up) ことです。
私たちは、様々な言語や、多様なノイズに対応し、さらに、低品質な録音にも対応できる「ユニバーサル」な音声強調を行うことを目標に、「FUSE」というシステムを開発しました。今年6月にオランダのロッテルダムで開催された国際会議 Interspeech 2025 の URGENT 2025 Challenge に参加したこのシステムは、総合で3位となり、リスニング品質でトップレベルの成績を納めました。
【論文紹介】Luminance-GS: Adapting 3D Gaussian Splatting to Challenging Lighting Conditions with View-Adaptive Curve Adjustment
「3D Gaussian Splatting (3DGS)」は、3Dシーンの再構成や、新しい視点からの画像合成に活用される技術です。照明の条件が良い場合には優れた性能を発揮しますが、照明条件が悪い場合には脆弱であり、現実世界においてはそのような「過酷な照明条件」が多くあります。今年6月にアメリカのナッシュビル、Music City Center にて開催された国際会議 The IEEE / CVF Computer Vision and Pattern Recognition Conference (CVPR) 2025 では、3DGSの高い効率性を保ちながら、様々な過酷な照明条件に対してロバストな手法「Luminance-GS」を提案する論文 "Luminance-GS: Adapting 3D Gaussian Splatting to Challenging Lighting Conditions with View-Adaptive Curve Adjustment" を発表しました。この成果により、3DGS の利点を活かしたまま、過酷な照明条件に対してロバストな新しい視点合成が可能にになります。将来的には、3DGSをより実世界に近い応用分野へと展開することが可能性となります。
【論文紹介】Offline Reinforcement Learning with Wasserstein Regularization via Optimal Transport Maps
オフライン強化学習(Reinforcement Learning, RL)は、ロボティクスのようにデータ収集が高コストな状況において有用な手法です。今年8月にカナダのエドモントンで開催された国際会議 Reinforcement Learning Conference (RLC) 2025 では、オフラインRLにおける大きな課題の一つである「分布のずれ」を緩和する新たな手法「Q-DOT」を提案する論文 "Offline Reinforcement Learning with Wasserstein Regularization via Optimal Transport Maps" を発表しました。この成果により、新しいデータを追加で取得しなくても、より安全で安定した学習を行うことが可能になります。無謀な行動を実際に行うことなく効率的に学べるため、自動運転やロボット操作に貢献できる可能性があります。
【論文紹介】Gradual Transition from Bellman Optimality Operator to Bellman Operator in Online Reinforcement Learning
「強化学習(Reinforcement Learning, RL)」は機械学習の一種で、たとえば、ロボットやゲームの操作を学ぶために使われます。 今年7月にカナダのバンクーバーで開催された国際会議 International Conference on Machine Learning (ICML) 2025 では、連続動作向けのRLアルゴリズムに関して、ベルマン最適作用素からベルマン作用素へ徐々に移行する減衰手法を提案する論文 "Gradual Transition from Bellman Optimality Operator to Bellman Operator in Online Reinforcement Learning" を発表しました。この成果により、ロボットが少ない試行回数で効率的に学習できるようになり、これまで学習コストの大きさのために良く学習できなかったいくつかのタスクの学習が可能になりました。将来的には、産業用ロボットや自動運転車など「学習コストが高い分野」で特に役立つ可能性があります。
オープンな日本語Vision&Languageモデル「Asagi」の開発
本研究室では、142億パラメータを持つ、日本語に特化したオープンなマルチモーダルモデルを開発しました。本研究の成果は、3月に開催される言語処理学会第31回年次大会 (NLP2025)で発表予定です。
【論文紹介】Style-NeRF2NeRF: 3Dシーンのスタイル転写
本論文"Style-NeRF2NeRF: 3D Style Transfer from Style-Aligned Multi-View Images"では、多視点画像から深層学習によって構築された3DシーンのNeRFモデルに対し、スタイル転写を行うための手法を提案しています。本稿では著者の藤原 晴雄がこの研究について解説します。本研究は2024年12月開催のSIGGRAPH ASIAにて発表予定です。
【論文紹介】sRGB事前学習モデルをRAW画像に適応させるアプローチ「RAW-Adapter」
私たちの論文「RAW-Adapter: Adapting Pre-trained Visual Model to Camera RAW Images」では、カメラの画像素子からの未処理のセンサーデータからなるRAW画像に着目し、NLPおよびCV分野で進行中のアダプター研究に着想を得て、sRGB事前学習モデルをカメラRAWデータに適応させることを目的とした新しいアプローチ「RAW-Adapter」を提案しています。本稿では著者の崔 子藤がこの研究について解説します。本研究は2024年のThe 18th European Conference on Computer Vision (ECCV 2024)に採択されました。
【論文紹介】ジョイント 誤差に基づくマルチクラスPU 学習によるオープンセットドメイン適応に関する研究
本研究では、オープンセット ドメイン適応のための新しい理論を提案します。論文では、PU 学習とジョイント エラーによるターゲット タスク全体のリスクを厳密に制限するエンドツーエンド アルゴリズムを提案し、幾つかのベンチマークでSOTAパーフォーマンスを達成できました。本稿では著者の張 徳軒がこの研究について解説します。本研究は2024年のThe 18th European Conference on Computer Vision (ECCV 2024)に採択されました。
【論文紹介】画像からの不適合抽出と解決による識別的ユーモアキャプションの生成に関する研究
私たちの発表した論文「Content-Specific Humorous Image Captioning Using Incongruity Resolution Chain-of-Thought」ではマルチモーダル大規模言語モデルを用いて、画像の細かい特徴を捉えたユーモラスなキャプションの生成を実現しました。本研究は2024年のNorth American Chapter of the Association for Computational Linguistics (NAACL Findings)にて発表されます。
【論文紹介】GPAvatar: 画像からの汎化可能かつ精密なヘッドアバターの生成
ヘッドアバターを忠実に再構築し、表情とポーズを正確に制御するためには、既存の手法ではトレーニングに大量の個別データが必要であり、表情の制御はまだ十分に精確ではありません。今回、私たちはこれらの問題に取り組み、論文「GPAvatar: Generalizable and Precise Head Avatar from Image(s)」を発表しました。この研究について、本稿では著者のXuangeng Chuが解説します。









