原田・長・黒瀬・椋田研究室

2024 年発表論文概要

Transactions of the International Society for Music Information Retrieval (ISMIR), April 2024

The Sound Demixing Challenge 2023 – Music Demixing Track
Fabbro, Giorgio and Uhlich, Stefan and Lai, Chieh-Hsin and Choi, Woosung and Martínez-Ramírez, Marco and Liao, Weihsiang and Gadelha, Igor and Ramos, Geraldo and Hsu, Eddie and Rodrigues, Hugo and Stöter, Fabian-Robert and Défossez, Alexandre and Luo, Yi and Yu, Jianwei and Chakraborty, Dipam and Mohanty, Sharada and Solovyev, Roman and Stempkovskiy, Alexander and Habruseva, Tatiana and Goswami, Nabarun and Harada, Tatsuya and Kim, Minseok and Lee, Jun Hyung and Dong, Yuanliang and Zhang, Xinran and Liu, Jiafeng and Mitsufuji, Yuki
ISMIR2024_Nabarun.jpg  This paper summarizes the music demixing (MDX) track of the Sound Demixing Challenge (SDX'23). We provide a summary of the challenge setup and introduce the task of robust music source separation (MSS), i.e., training MSS models in the presence of errors in the training data. We propose a formalization of the errors that can occur in the design of a training dataset for MSS systems and introduce two new datasets that simulate such errors: SDXDB23_LabelNoise and SDXDB23_Bleeding. We describe the methods that achieved the highest scores in the competition. Moreover, we present a direct comparison with the previous edition of the challenge (the Music Demixing Challenge 2021): the best performing system achieved an improvement of over 1.6dB in signal-to-distortion ratio over the winner of the previous competition, when evaluated on MDXDB21. Besides relying on the signal-to-distortion ratio as objective metric, we also performed a listening test with renowned producers and musicians to study the perceptual quality of the systems and report here the results. Finally, we provide our insights into the organization of the competition and our prospects for future editions. Link

Proceedings of the IEEE International Conferences on Robotics and Automation (ICRA), 2024

Robustifying a Policy in Multi-Agent RL with Diverse Cooperative Behavior and Adversarial Style Sampling for Assistive Tasks
Takayuki Osa and Tatsuya Harada
ICRA2024_osa_assisit.png  運動機能障害を抱える方々への支援は、ロボットスシステムの有望な応用先の一つです。既存研究では、食事の介護動作をマルチエージェント強化学習として定式化することで、被介護者の動きに合わせた動作をロボットが獲得できることが示されています。しかし、従来研究の手法では、被介護者の動きのタイプが変わると、ロボットがその動きに対応するためには再度の学習が必要となっていました。そこで本研究では、多様な被介護者の動きを自律的に生成し、多様な被介護者の動きに合わせて動作するロバストな動きをロボットに学習させる枠組みを提案しています。

Open X-Embodiment: Robotic Learning Datasets and RT-X Models
Open X-Embodiment Collaboration (173 authors, including Takayuki Osa, Yujin Tang, and Tatsuya Harada)
ICRA2024_collaboration.png  大容量で多様なデータセットで訓練されたモデルは、効率的に様々な応用に取り組む上で注目すべき成功を収めています。このOpen X-Embodimentというプロジェクトでは、世界中の研究機関からロボットの動作データを収集し、マルチモーダルなモデルを訓練するという試みが行われました。21の機関の協力により収集された22台の異なるロボットからデータから、527のスキル(160,266のタスク)を含むデータセットを構築しました。これを用い、RT-Xというマルチモーダルなモデルを訓練し、複数の研究機関の異なるロボットにおいて動作することを確認しました。本研究室も、このプロジェクトに参加し、データを提供しています。

The 12th International Conference on Learning Representations (ICLR), 2024

GPAvatar: Generalizable and Precise Head Avatar from Image(s)
Xuangeng Chu, Yu Li, Ailing Zeng, Tianyu Yang, Lijian Lin, Yunfei Liu, Tatsuya Harada
ICLR2024_Chu.png  ヘッドアバターの再構築は、仮想現実、オンライン会議、ゲーム、映画産業などでの応用において非常に注目されています。この分野の基本的な目標は、ヘッドアバターを忠実に再現し、表情やポーズを正確に制御することです。既存の方法は、2Dベースのワーピング、メッシュベース、およびニューラルレンダリングのアプローチに分類され、複数の視点の一貫性の維持、非顔情報の統合、新しいアイデンティティへの一般化において課題があります。本論文では、GPAvatarというフレームワークを提案し、1回の順方向のパスで1枚または複数の画像から3Dヘッドアバターを再構築します。この作業の鍵となるアイデアは、ポイントクラウドによって駆動される動的なポイントベースの表現フィールドを導入し、表情を正確かつ効果的に捉えることです。さらに、複数の入力画像からの情報を活用するために、Tri-planesカノニカルフィールドにMulti Tri-planes Attention(MTA)フュージョンモジュールを使用しています。提案された方法は、忠実なアイデンティティの再構築、正確な表現の制御、および多視点の一貫性を実現し、自由視点のレンダリングや新しい視点の合成において有望な結果を示しています。

The 12th International Conference on Learning Representations (ICLR), 2024

GPAvatar: Generalizable and Precise Head Avatar from Image(s)
Xuangeng Chu, Yu Li, Ailing Zeng, Tianyu Yang, Lijian Lin, Yunfei Liu, Tatsuya Harada
ICLR2024_Chu.png  Head avatar reconstruction, crucial for applications in virtual reality, online meetings, gaming, and film industries, has garnered substantial attention within the computer vision community. The fundamental objective of this field is to faithfully recreate the head avatar and precisely control expressions and postures. Existing methods, categorized into 2D-based warping, mesh-based, and neural rendering approaches, present challenges in maintaining multi-view consistency, incorporating non-facial information, and generalizing to new identities. In this paper, we propose a framework named GPAvatar that reconstructs 3D head avatars from one or several images in a single forward pass. The key idea of this work is to introduce a dynamic point-based expression field driven by a point cloud to precisely and effectively capture expressions. Furthermore, we use a Multi Tri-planes Attention (MTA) fusion module in tri-planes canonical field to leverage information from multiple input images. The proposed method achieves faithful identity reconstruction, precise expression control, and multi-view consistency, demonstrating promising results for free-viewpoint rendering and novel view synthesis.

Medical Image Analysis

Sketch-based semantic retrieval of medical images
Kazuma Kobayashi, Lin Gu, Ryuichiro Hataya, Takaaki Mizuno, Mototaka Miyake, Hirokazu Watanabe, Masamichi Takahashi, Yasuyuki Takamizawa, Yukihiro Yoshida, Satoshi Nakamura, Nobuji Kouno, Amina Bolatkan, Yusuke Kurose, Tatsuya Harada, Ryuji Hamamoto
Kobayashi_MedIA24.png  The volume of medical images stored in hospitals is rapidly increasing; however, the utilization of these accumulated medical images remains limited. Existing content-based medical image retrieval (CBMIR) systems typically require example images, leading to practical limitations, such as the lack of customizable, fine-grained image retrieval, the inability to search without example images, and difficulty in retrieving rare cases. In this paper, we introduce a sketch-based medical image retrieval (SBMIR) system that enables users to find images of interest without the need for example images. The key concept is feature decomposition of medical images, which allows the entire feature of a medical image to be decomposed into and reconstructed from normal and abnormal features. Building on this concept, our SBMIR system provides an easy-to-use two-step graphical user interface: users first select a template image to specify a normal feature and then draw a semantic sketch of the disease on the template image to represent an abnormal feature. The system integrates both types of input to construct a query vector and retrieves reference images. For evaluation, ten healthcare professionals participated in a user test using two datasets. Consequently, our SBMIR system enabled users to overcome previous challenges, including image retrieval based on fine-grained image characteristics, image retrieval without example images, and image retrieval for rare cases. Our SBMIR system provides on-demand, customizable medical image retrieval, thereby expanding the utility of medical image databases.

IJCV Special Issue on Multimodal Learning

Learning by Asking Questions for Knowledge-based Novel Object Recognition
Motoki Omura, Takayuki Osa, Yusuke Mukuta, Tatsuya Harada
uehara_IJCV24.png  通常の画像認識モデルは,訓練データに存在しないカテゴリの物体(未知物体)を認識することはできませんが,これは画像認識システムの実世界応用における大きな課題となります.本研究では,質問生成を通じて自律的に未知物体に関する知識を獲得し,適応的に学習を行うシステムを実現します.提案したパイプラインは,知識に基づいた物体認識を行う物体認識モジュール,新しい知識を取得するための質問を生成する質問生成モジュール,そして質問の方策を決定する方策決定モジュールによって構成されます.方策決定モジュールでは,強化学習によって「どのような質問を生成すれば未知物体に関する知識を効率よく獲得できるか」を決定します.このパイプラインを用いることで,未知の物体が含まれる画像について,その物体を認識するためにもっとも適した質問を自動的に生成し,知識を獲得して新規物体認識を行うことができます.

AAAI Conference on Artificial Intelligence (AAAI-24)

Symmetric Q-Learning: Reducing Skewness of Bellman Error in Online Reinforcement Learning
Motoki Omura, Takayuki Osa, Yusuke Mukuta, Tatsuya Harada
omura_AAAI24.png  深層強化学習において、状態と行動を評価するために価値関数の推定が不可欠です。価値関数は主に最小二乗法を用いて訓練され、これは暗黙のうちに誤差分布が正規分布であることを前提としています。しかし、最近の研究によると、価値関数を訓練する際の誤差分布は、ベルマン演算子によって歪み、最小二乗法の正規誤差分布の仮定に違反することが示唆されています。これに対処するために、私たちは Symmetric Q-learning と呼ばれる方法を提案しました。これは、平均ゼロの分布から生成されたノイズを目標値に加えて、ガウス誤差分布を生成します。提案された方法はMuJoCoの連続行動制御ベンチマークタスクで評価され、誤差分布の歪みを減少させ、最先端の強化学習方法のサンプル効率を改善しました。

Aleth-NeRF: Illumination Adaptive NeRF with Concealing Field Assumption
Ziteng Cui, Lin Gu, Xiao Sun, Xianzheng Ma, Yu Qiao, Tatsuya Harada
cui_AAAI24.png 標準のNeRFのパラダイムは、ビューア中心の方法論を採用し、照明と物質の反射の側面を3Dポイントからの発光に絡め取ります。この単純なレンダリングアプローチは、低照明や過曝光などの不利な照明条件でキャプチャされた画像を正確にモデリングする際に課題を提供します。古代ギリシャの発光理論に触発され、視覚知覚を目から発せられる光線の結果として位置づけるものとして、私たちは従来のNeRFフレームワークをわずかに改良します。この改良は、NeRFを厳しい照明条件下でトレーニングし、非監視学習で通常の明るい条件で新しい視点を生成することを目指しています。私たちは「Concealing Field」という概念を導入し、周囲の空気に透過値を割り当てて照明効果を考慮します。暗いシナリオでは、物体の発光が標準の照明レベルを維持すると仮定しますが、レンダリングプロセス中に空気を通過すると減衰します。Concealing Fieldは、NeRFに対して暗い状況でも物体の適切な密度と色の推定を学習させるようにします。同様に、Concealing Fieldはレンダリング段階での過曝光した発光を軽減できます。さらに、評価用に厳しい照明条件下でキャプチャされた包括的なマルチビューデータセットも紹介します。

Winter Conference on Applications of Computer Vision (WACV), 2024

Gradual Source Domain Expansion for Unsupervised Domain Adaptation
Thomas Westfechtel, Hao-Wei Yeh, Dexuan Zhang, Tatsuya Harada
Thomas23_WACV 教師なし領域適応(UDA)は、大量のラベル付きデータを持つソースデータセットから、ラベル付きデータのないターゲットデータセットに知識を転送することで、大量のラベル付きデータセットの必要性を克服しようとするものである。多くのラベル付きデータを持つソース・データセットから、ラベル付きデータを持たないターゲット・データセットに知識を転送することで、大規模なラベル付きデータセットの必要性を克服しようとするものである。ターゲット領域にはラベルがないため、初期段階でのミスアライメントが後工程に伝播し、エラーの蓄積につながる可能性がある。この問題を克服するために、我々は漸進的ソースドメイン拡張(GSDE)アルゴリズムを提案する。GSDE は UDA タスクをゼロから数回訓練し、その都度ネットワークの重みを再初期化するが、その都度ソースデータセットをターゲットデータで拡張する。特に、前回の実行で最もスコアの高かったターゲットデータは、それぞれの擬似ラベルを持つ擬似ソースサンプルとして採用される。この戦略を用いることで、擬似ソースサンプルは、新しいトレーニングの開始から、前回の実行から抽出された知識を直接導入する。これにより、特に初期の学習エポックにおいて、2 つの領域をより良く整合させることができる。本研究では、まず強力なベースラインネットワークを導入し、それに我々の GSDE 戦略を適用する。我々は 3 つのベンチマーク(Office-31、OfficeHome、DomainNet)で実験とアブレーション研究を行い、最先端の手法を凌駕した。さらに、提案する GSDE 戦略が、様々な最先端の UDA アプローチの精度を改善できることを示す。