2025 年発表論文概要
第28回 画像の認識・理解シンポジウム (MIRU2025), 口頭発表論文, 査読付き
高品質な日本語マルチモーダルデータセットのスケーラブルな構築手法に関する研究
Toshiki katsube, Taiga Fukuhara, Kohei Uehara, Kenichiro Ando, Yusuke Mukuta, Tatsuya harada
近年,機械学習技術の進歩により視覚情報と言語情報を統合して処理するVision & Language(V&L)モデルの発展がめざましいです。V&Lモデルの学習のためには,テキストとデータがペアになったV&Lデータセットが必要であるが,日本語など英語以外の言語のデータセットは量的にも質的にも不足しています.
本研究では,日本特有の知識や文化を反映した,高品質な画像キャプションデータセットをスケーラブルに構築する手法を提案しました.提案手法は,画像とaltテキストのダウンロード,画像に含まれる物体の検出,LLMによるaltテキストの整形の三段階に分かれます.LLMによってテキストを整形することにより,従来の自動で構築されたデータセットよりも高品質なデータセット構築を可能にしました.構築したデータセットを用いてV&Lモデルを学習し,V&Lモデルの日本語性能の向上に寄与することを確認しました.
Interspeech 2025
FUSE: Universal Speech Enhancement using Multi-Stage Fusion of Sparse
Compression and Token Generation Models for the URGENT 2025 Challenge
Nabarun Goswami, Tatsuya Harada
Interspeech 2025 URGENT Challenge向けに設計された、ユニバーサルな音声強調のための多段階フレームワークを提案します。このシステムはまず、スパース圧縮ネットワークを用いて音源をロバストに分離し、ノイズの多い入力から初期のクリーンな音声推定値を抽出します。次に、効率的なマスク予測生成モデルを用いて、自己教師あり特徴量を活用し、ニューラルオーディオコーデックから得られた音響トークンに対してマスク言語モデリング目標を最適化することで、音声品質を改善します。最終段階では、融合ネットワークが最初の2段階の出力を元のノイズ信号と統合し、信号忠実度と知覚品質の両方をバランスよく改善します。さらに、複数の時間シフト予測を集約するシフトトリックと出力ブレンディングを組み合わせることで、パフォーマンスがさらに向上します。可変サンプリングレートと多様な歪みタイプを持つ困難な多言語データセットを用いた実験結果により、このアプローチの有効性が検証されています。
Transactions on Machine Learning Research (TMLR), 2025
HyperVQ: MLR-based Vector Quantization in Hyperbolic Space
Nabarun Goswami, Yusuke Mukuta, Tatsuya Harada
トークン化されたデータで動作するモデルの成功により、特に入力が自然に連続する視覚および聴覚タスクにおいて、効果的なトークン化手法の必要性が高まっています。一般的な解決策は、VQ変分オートエンコーダ(VQVAE)内でベクトル量子化(VQ)を使用し、ユークリッド空間における埋め込みをクラスタリングすることで入力を離散トークンに変換することです。しかし、ユークリッド埋め込みは、多項式体積増加による非効率的なパッキングと分離の制限に悩まされるだけでなく、コードブックベクトルの小さなサブセットのみが有効に活用されるコードブック崩壊も発生しやすい傾向があります。これらの制限に対処するため、我々はHyperVQを導入します。これは、VQを双曲型多項式ロジスティック回帰(MLR)問題として定式化し、双曲型空間における指数関数的な体積増加を利用して崩壊を軽減し、クラスターの分離性を向上させる新しいアプローチです。さらに、HyperVQはコードブックベクトルを双曲型決定超平面の幾何学的表現として表現することで、分離した堅牢な潜在表現を促進します。私たちの実験では、HyperVQ は生成タスクと再構築タスクでは従来の VQ に匹敵し、識別性能ではそれを上回り、より効率的で分離したコードブックを生成することが実証されています。
EDM-TTS: Efficient Dual-Stage Masked Modeling for Alignment-Free Text-to-Speech Synthesis
Nabarun Goswami, Hanqin Wang, Tatsuya Harada
トークン化音声モデリングは、ゼロショットテキスト音声合成(TTS)機能を大幅に向上させました。事実上の最も一般的なアプローチは、テキストから意味情報への変換(T2S)と、それに続く意味情報から音響情報への変換(S2A)という2段階のプロセスです。
文献では、これらの両方の段階において、自己回帰(AR)法と非自己回帰(NAR)法がいくつか検討されています。ARモデルは最先端の性能を達成しますが、トークンごとの生成は推論の効率を低下させます。一方、NAR法はより効率的ですが、中間表現をアップサンプリングするために明示的なアライメントが必要であり、より自然な韻律を実現するモデルの能力に制約が生じます。
これらの問題を克服するために、我々は、T2Sステージにアライメントフリーのマスク生成アプローチを採用し、明示的なアライナーの制約を克服しながらNAR法の効率性を維持する効率的なデュアルステージMasked TTS (EDM-TTS)モデルを提案します。S2Aステージでは、異なる音響量子化レベル間の条件依存性を効果的にモデル化し、マスク言語モデリング目標によって最適化された、新しいInjection Conformerアーキテクチャを使用した革新的なNARアプローチを導入し、ゼロショット音声生成を可能にします。
評価では、EDM-TTSの優れた推論効率だけでなく、最先端の高品質ゼロショット音声品質、自然さ、話者類似性も実証しました。
Proceedings of the Reinforcement Learning Conference (RLC), 2025
Offline Reinforcement Learning with Wasserstein Regularization via Optimal Transport Maps
Motoki Omura, Yusuke Mukuta, Kazuki Ota, Takayuki Osa, Tatsuya Harada
オフライン強化学習(RL)は、静的なデータセットから最適な方策を学習することを目的としており、特にロボティクスのようにデータ収集が高コストな状況で有用です。オフラインRLにおける大きな課題の一つは「分布のずれ」であり、これは学習された方策がデータセットの分布から逸脱し、分布外の信頼性の低い行動を引き起こす可能性があるという問題です。この問題を緩和するために、正則化が用いられています。多くの既存手法では、f-ダイバージェンスなどの密度比に基づく指標を正則化に使用していますが、本研究では、分布外データに対しても頑健で、行動間の類似性を捉えるワッサースタイン距離を用いた手法を提案します。本手法では、Input Convex Neural Networks(ICNNs)を用いて最適輸送写像をモデル化し、識別器を使わずにワッサースタイン距離を計算することで、敵対的学習を回避し、安定した学習を可能にします。本手法は、D4RLベンチマークデータセットにおいて、広く使われている既存手法と同等またはそれ以上の性能を示しました。
Proceedings of the International Conference on Machine Learning (ICML), 2025
Gradual Transition from Bellman Optimality Operator to Bellman Operator in Online Reinforcement Learning
Motoki Omura, Kazuki Ota, Takayuki Osa, Yusuke Mukuta, Tatsuya Harada
連続行動空間においては、Actor-critic 法がオンライン強化学習で広く用いられています。しかし、一般にベルマン最適作用素を用いて最適価値関数をモデル化する離散行動空間向けのRLアルゴリズムとは異なり、連続動作向けのRLアルゴリズムでは通常、現在の方策に対するQ値をベルマン作用素を用いてモデル化します。こうした連続行動向けアルゴリズムは方策の更新のみに依存して性能を向上させるため、サンプル効率が低いという問題があります。本研究では、Actor-critic の枠組みにベルマン最適作用素を取り入れる有効性を検証します。単純な環境での実験により、最適値のモデル化が学習を加速する一方で、過大評価バイアスを招くことが示されました。これに対処するために、本研究ではベルマン最適作用素からベルマン作用素へ徐々に移行する減衰手法を提案し、学習の加速とバイアスの緩和を両立させます。我々の手法は、TD3およびSACと組み合わせることで、多様な歩行および操作タスクにおいて既存手法を大きく上回る性能を示し、最適性に関連するハイパーパラメータに対するロバスト性も向上することが確認されました。
The IEEE/CVF Conference on Computer Vision and Pattern Recognition, CVPR 2025
A Theory of Learning Unified Model via Knowledge Integration from Label Space Varying Domains
Dexuan Zhang, Thomas Westfechtel, Tatsuya Harada
既存のドメイン適応システムは、実装時に新しいクラスが現れる現実世界の問題に適用する際、特に、ラベル付きターゲットデータがいくつか与えられているにもかかわらず、複数のソースドメインがラベルスペースを共有しないソースフリーシナリオに関しては現状比較的に困難です。これに対処するために、私たちは挑戦的な問題設定、つまりマルチソースの半教師ありオープンセットドメイン適応を検討し、ジョイントエラーによる学習理論を提案し、強力なドメインシフトに効果的に取り組みます。アルゴリズムをソースフリーのケースに一般化するために、計算効率が高く、アーキテクチャが柔軟なアテンションを用いた特徴生成モジュールを導入します。さまざまなデータセットでの広範な実験により、提案されたアルゴリズムがベースラインよりも大幅に改善されていることが証明されています。
Luminance-GS: Adapting 3D Gaussian Splatting to Challenging Lighting Conditions with View-Adaptive Curve Adjustment
Ziteng Cui, Xuangeng Chu, Tatsuya Harada
多様な実世界の照明条件下で高品質な写真を撮影することは困難です。自然光(例:低照度)やカメラの露出設定(例:露光時間)は、画像品質に強く影響を与えます。この問題は、マルチビュー環境ではさらに深刻になり、各視点ごとに異なる照明条件や画像信号処理(ISP)設定が適用されるため、視点間で輝度の不整合が生じます。これらの照明劣化や視点ごとの変動は、NeRFおよび3D Gaussian Splatting(3DGS)に基づく新規視点合成(NVS)フレームワークにとって大きな課題となります。
この課題に対処するため、本研究では Luminance-GS を提案します。Luminance-GS は、3DGS を用いて多様で困難な照明条件下でも高品質な新規視点合成を実現する新しいアプローチです。本手法では、視点ごとの色空間マッピングと視点適応型のカーブ調整を採用することで、3DGS の明示的表現を変更することなく、低照度、過露光、露出変動など、さまざまな照明条件下で最先端(SOTA)の結果を達成します。従来の NeRF および 3DGS ベースラインと比較して、Luminance-GS は再構成品質を向上させながら、リアルタイムなレンダリング速度を提供します。ソースコードも公開予定です。
The Thirteenth International Conference on Learning Representations, ICLR 2025
T2V2: A Unified Non-Autoregressive Model for Speech Recognition and Synthesis via Multitask Learning
Nabarun Goswami, Hanqin Wang, Tatsuya Harada
自動音声認識 (ASR) とテキスト読み上げ (TTS) 合成の両方を同じフレームワーク内で実行できる統合非自己回帰モデルである T2V2 (Text to Voice および Voice to Text) を紹介します。T2V2 は、回転位置埋め込みを備えた共有 Conformer バックボーンを使用してこれらのコアタスクを効率的に処理します。ASR はコネクショニスト時間分類 (CTC) 損失を使用してトレーニングされ、TTS はマスク言語モデリング (MLM) 損失を使用してトレーニングされます。モデルは離散トークンで動作し、音声トークンは自己教師学習モデルからの特徴のクラスタリングによって生成されます。パフォーマンスをさらに向上させるために、補助タスクを導入します。音声埋め込みからのコンテキスト情報を使用して生の ASR 出力を改良する CTC エラー訂正と、分類子を使用しないガイダンスで TTS を改善できるようにする無条件音声 MLM です。私たちの方法は自己完結型で、中間 CTC 出力を利用して、外部アライナーに依存せずに Monotonic Alignment Search を使用してテキストと音声をアラインメントします。 T2V2 フレームワークの有効性を検証するために広範な実験評価を実施し、TTS タスクで最先端のパフォーマンスと離散 ASR で競争力のあるパフォーマンスを達成しました。