原田・長・黒瀬・椋田研究室

2022年発表論文概要

IEEE TPAMI 2022

Spherical Image Generation From a Few Normal-Field-of-View Images by Considering Scene Symmetry
Takayuki Hara, Yusuke Mukuta, Tatsuya Harada
本研究では,部分的に撮影した少数の画像から全天球画像(360度全方向の視野を記録した画像)を生成する問題に取り組んでいます.私たちは変分オートエンコーダーをベースとして,入力画像から対象シーンが取り得る対称性の強度分布を推定し,その分布に基づき特徴量空間で対称パターンの組み合わせを制御して画像を生成する手法を提案しました.実験により,提案手法は従来手法よりも多様かつ自然な全天球画像を生成できることを検証しました.本研究の成果は,仮想空間の制作支援やARのための環境マップ生成に応用が考えられます.
(pdf)

COLING 2022 Workshop

Learning to Evaluate Humor in Memes Based on the Incongruity Theory
Kohtaro Tanaka, Hiroaki Yamane, Yusuke Mori, Yusuke Mukuta, Tatsuya Harada
detection ミームは、SNS上で広く使われているコミュニケーション手段であり、人間とコミュニケーションをとるロボットがミームのユーモアを理解できることには価値があります。ミームのユーモアを評価する既存研究では、訓練に用いられているデータの一貫性が担保されていないうえ、ミームにおけるユーモアの重要な要素である「不適合」を明示的に利用できていません。本研究では、個人差に影響されないミームデータセットを作成し、不適合を抽出し活用するユーモア評価モデルを提案し、ユーモア評価タスクで既存手法の性能を上回ることを示しました。
(pdf)

NeurIPS 2022

Non-rigid Point Cloud Registration with Neural Deformation Pyramid. Thirty-sixth Conference on Neural Information Processing Systems
Yang Li, Tatsuya Harada
detection 非剛体点群Registrationは、CVとCG分野においての重要な課題である。未知の非剛体運動は非常に複雑であるため、このタスクは困難な問題になります。本研究では、階層的なモーション表現によって、この問題を分解します。 Neural Deformation Pyramid (NDP) と呼ばれる私たちの手法は、Pyramid構造を使用して非剛体運動を表します。 Multi-Layer Perception (MLP) で表されるPyramidの各層は、正弦波でエンコードされた 3D ポイントを入力し、前の層からのモーションの増加値を出力します。正弦波関数は低い入力周波数から始まり、層が下がると徐々に増加します。これにより、階層的に剛体から非剛体へのモーション分解が可能になり、既存手法比較して、50倍の高速化ができます。私たちの方法は、非学習設定と教師あり設定の両方で、4DMatch/4DLoMatch ベンチマークで先端な非剛体点群Registration結果を達成します。

ECCV 2022

Deforming Radiance Fields with Cages
Tianhan Xu, Tatsuya Harada
detection 本研究では,三次元表現手法の一つである輝度場(Radiance Fields)に適用可能な自由形状変形(Free-form deformation)の手法を提案します.本手法では,Cageと呼ばれる前景オブジェクトを囲む三角メッシュをインタフェースとして用い,ケージの頂点を操作することで,Radiance Fieldsの自由形状変形を可能にしました.提案手法では,メッシュ変形に用いられるCage-based deformationをRadiance Fieldsに拡張し,サンプリング点の三次元位置と視線方向を変形空間(Deformed space)から正準空間(Canonical space)に対応付けることで,変形シーンのレンダリングを実現しました.
(ProjectPage) (Code)

Unsupervised Learning of Efficient Geometry-Aware Neural Articulated Representations
Atsuhiro Noguchi, Xiao Sun, Stephen Lin, Tatsuya Harada
detection 本研究では,多関節物体の三次元表現を教師なしで学習する手法であるENARF-GANを提案します.既存の三次元表現では多関節物体の写実的な画像を物体の姿勢を自由に変化させながら描画可能ですが,その訓練には物体の三次元姿勢や前景マスクなどの正解データが必要であり,訓練データ構築コストが大きいという問題があります.ENARF-GANは,敵対的生成ネットワーク(GAN)により,正解データ不要の訓練を実現します.多関節物体の多様な画像と姿勢の分布のみを訓練に用い,動画の左に示すように,見た目・視点・姿勢を独立に制御しながら画像を描画可能です.
(PROJECT PAGE) (PDF) (CODE)

Unsupervised Pose-Aware Part Decomposition for 3D Articulated Objects
Yuki Kawana, Yusuke Mukuta, Tatsuya Harada
detection 本研究では関節構造を持つ人工物体を対象として,教師なしでパーツ形状への分解を行うPPD (unsupervised Pose-aware Part Decomposition)を提案しています. 本手法では,パーツ形状とパーツの姿勢の両方についてカテゴリ共通の事前情報を学習することで,(1) 入力形状の抽象化されたパーツ形状への分解と (2) パーツ姿勢の関節パラメータとしての学習を可能にしました. 実験の結果,本手法が教師ありのベースラインと同程度のパーツ姿勢の推定精度と,先行研究を上回るパーツのセグメンテーション精度を持つことが示されました.

Exploring Resolution and Degradation Clues as Self-supervised Signal for Low Quality Object Detection
Ziteng Cui, Yingying Zhu, Lin Gu, Guo-Jun Qi, Xiaoxiao Li, Renrui Zhang, Zenghui Zhang, Tatsuya Harada
detection 超解像(Super resolution)などの画像復元アルゴリズムは,低画質画像における物体検出のために不可欠な前処理モジュールです.これらのアルゴリズムの多くは,画像の劣化状態が固定的で先験的に分かっていることを前提としています. しかし現実には,実際の劣化度や最適解像度が不明であったり仮定と異なる場合があり,前処理モジュールとその結果である物体検出などの高レベルタスクの両方において性能低下を招くことがあります.本論文では,劣化した低解像度画像から物体を検出するための自己教師(Self supervision)付きフレームワークを提案しました. 提案手法では,自己教師付き信号のための一種の変換としてダウンサンプリング劣化を利用し,様々な解像度や他の劣化条件に対する等変量表現を探索します. 提案手法AERIS(Auto Encoding Resolution in Self-supervision)は,劣化した入力画像から元の対応を復元するための任意の解像度復元デコーダを持つ高度な超解像アーキテクチャを活用でき, CNNからTransformerまで様々な主流のオブジェクト検出アーキテクチャに実装可能です.実験により、様々な低画質画像に対して既存の手法と比較して優れた性能を達成することが示されました.

Interspeech 2022

SATTS: Speaker Attractor Text to Speech, Learning to Speak by Learning to Separate
Nabarun Goswami, Tatsuya Harada
detection テキストを人間が読み上げる際,文脈や話者の感情や性別,年齢といった要素によって多様に発話されます. 本研究ではspeaker attractorと呼ばれる音声の高次元な特徴ベクトルを活用し,未知の話者のスタイルに合わせてテキストを音声に変換する手法,speaker attractor text to speech (SATTS)を提案しています. 実験では,提案手法を用いることで,反響がある音声や複数の話者の音声が混ざった音声を参照情報として,その発話スタイルに応じてテキストを読み上げる音声を自動生成できることが示されました.
(DEMO)

CVPR 2022

Lepard: Learning partial point cloud matching in rigid and deformable scenes
Yang Li, Tatsuya Harada
detection 本研究では剛体変換/非剛体変換を伴う三次元点群のマッチングに取り組んでいます. 三次元点群のマッチングでは与えられた点群ペアについて各点の対応を推定し位置合わせを行います.本研究で提案した手法Lepardでは位置情報をうまく利用することで3DMatch/4DMatch などのベンチマークでSOTAを達成しています.
(PDF) (CODE)

Watch It Move: Unsupervised Discovery of 3D Joints for Re-Posing of Articulated Objects
Atsuhiro Noguchi, Umar Iqbal, Jonathan Tremblay, Tatsuya Harada, Orazio Gallo
detection 多関節物体の姿勢を自由に制御しながら画像を描画できれば,VRや映画制作などの様々な応用が期待されます.しかし,姿勢を制御可能な既存の三次元再構成手法の学習には,物体の構造が既知である必要があり,適用可能な物体のカテゴリが限定されてしまいます.本研究では,構造が未知の物体が動く様を複数の視点から観察することで,関節位置の教師情報や構造に関する事前知識を一切利用せずに,物体の見た目と構造を同時に学習する手法を提案します.明示的な構造を学習するため,学習後は自由に姿勢を制御しながら画像を描画可能です.実験により,本手法は様々な構造の物体に対して適用可能であることを示しました.
(PROJECT PAGE)