原田・黒瀬・椋田研究室

2025 年発表論文概要

The IEEE/CVF Conference on Computer Vision and Pattern Recognition, CVPR 2025

A Theory of Learning Unified Model via Knowledge Integration from Label Space Varying Domains
Dexuan Zhang, Thomas Westfechtel, Tatsuya Harada
Zhang_CVPR2025.png  既存のドメイン適応システムは、実装時に新しいクラスが現れる現実世界の問題に適用する際、特に、ラベル付きターゲットデータがいくつか与えられているにもかかわらず、複数のソースドメインがラベルスペースを共有しないソースフリーシナリオに関しては現状比較的に困難です。これに対処するために、私たちは挑戦的な問題設定、つまりマルチソースの半教師ありオープンセットドメイン適応を検討し、ジョイントエラーによる学習理論を提案し、強力なドメインシフトに効果的に取り組みます。アルゴリズムをソースフリーのケースに一般化するために、計算効率が高く、アーキテクチャが柔軟なアテンションを用いた特徴生成モジュールを導入します。さまざまなデータセットでの広範な実験により、提案されたアルゴリズムがベースラインよりも大幅に改善されていることが証明されています。

Luminance-GS: Adapting 3D Gaussian Splatting to Challenging Lighting Conditions with View-Adaptive Curve Adjustment
Ziteng Cui, Xuangeng Chu, Tatsuya Harada
Cui_CVPR2025.png  多様な実世界の照明条件下で高品質な写真を撮影することは困難です。自然光(例:低照度)やカメラの露出設定(例:露光時間)は、画像品質に強く影響を与えます。この問題は、マルチビュー環境ではさらに深刻になり、各視点ごとに異なる照明条件や画像信号処理(ISP)設定が適用されるため、視点間で輝度の不整合が生じます。これらの照明劣化や視点ごとの変動は、NeRFおよび3D Gaussian Splatting(3DGS)に基づく新規視点合成(NVS)フレームワークにとって大きな課題となります。 この課題に対処するため、本研究では Luminance-GS を提案します。Luminance-GS は、3DGS を用いて多様で困難な照明条件下でも高品質な新規視点合成を実現する新しいアプローチです。本手法では、視点ごとの色空間マッピングと視点適応型のカーブ調整を採用することで、3DGS の明示的表現を変更することなく、低照度、過露光、露出変動など、さまざまな照明条件下で最先端(SOTA)の結果を達成します。従来の NeRF および 3DGS ベースラインと比較して、Luminance-GS は再構成品質を向上させながら、リアルタイムなレンダリング速度を提供します。ソースコードも公開予定です。

The Thirteenth International Conference on Learning Representations, ICLR 2025

T2V2: A Unified Non-Autoregressive Model for Speech Recognition and Synthesis via Multitask Learning
Nabarun Goswami, Hanqin Wang, Tatsuya Harada
Nabarun_ICLR2025.png  自動音声認識 (ASR) とテキスト読み上げ (TTS) 合成の両方を同じフレームワーク内で実行できる統合非自己回帰モデルである T2V2 (Text to Voice および Voice to Text) を紹介します。T2V2 は、回転位置埋め込みを備えた共有 Conformer バックボーンを使用してこれらのコアタスクを効率的に処理します。ASR はコネクショニスト時間分類 (CTC) 損失を使用してトレーニングされ、TTS はマスク言語モデリング (MLM) 損失を使用してトレーニングされます。モデルは離散トークンで動作し、音声トークンは自己教師学習モデルからの特徴のクラスタリングによって生成されます。パフォーマンスをさらに向上させるために、補助タスクを導入します。音声埋め込みからのコンテキスト情報を使用して生の ASR 出力を改良する CTC エラー訂正と、分類子を使用しないガイダンスで TTS を改善できるようにする無条件音声 MLM です。私たちの方法は自己完結型で、中間 CTC 出力を利用して、外部アライナーに依存せずに Monotonic Alignment Search を使用してテキストと音声をアラインメントします。 T2V2 フレームワークの有効性を検証するために広範な実験評価を実施し、TTS タスクで最先端のパフォーマンスと離散 ASR で競争力のあるパフォーマンスを達成しました。