プリンストン大学 交換留学報告 第三回

プリンストン大学 Vision&Learning Lab への交換留学報告の第三回は、博士1年の橋本から研究内容についてお届けします。

研究分野の紹介

Jia Deng教授が率いるV&L研究室では、主にコンピュータビジョンと機械学習を中心に研究を行っています。ここでは、誰もが知る有名なデータセットであるImageNetと、近年発表された新しいデータセットであるInfinigenについてご紹介します。

ImageNetの紹介

ImageNetは大量の画像とラベルからなるデータセットです[1, 2]。画像はWordNetに含まれる単語に紐づけられて収集され、最もよく知られたサブセットでは1,000クラス、1,000,000枚以上の訓練データを含みます。ImageNetの貢献は主に2つあり、一つはILSVRC (ImageNet Large Scale Visual Recognition Challenge)と呼ばれるコンペティションの開催によって画像認識のタスクとゴールを示したこと、もう一つは機械学習モデルがより一般化した性能を持つために必要な大量のデータを提供したことです。

近年では、より公平でプライバシーに配慮したデータセットとして利用するために、人物に関わるクラスをフィルタリングしたり、画像に写る人物の顔をぼかすなどの処理が行われ、V&L研究室を中心として管理が続けられています[3, 4]。

Infinigenの紹介

Infinigenは3Dシーンに特化した、画像、深度、セグメンテーションマスクなどを生成可能なデータセットです。あらかじめ撮影された実世界画像からなるものではなく、シミュレーションで生成されたインスタンスを配置することでシーンを生み出します。個々のインスタンスは全て固有のパラメータを持ち、例えば木なら高さや幹の数など、実世界を模した構造をもとに全てがプログラムによって生成されています。

近年の画像生成の分野では非常にリアリスティックな結果を得ることができますが、Infinigenにはそのような深層モデルによる生成のプロセスが一切使われていません。なぜ生成モデルを使わないのかJia教授に質問すると、次のような説明を頂きました。学習されたモデルには必ず、訓練データや訓練の過程で生じる制御不能なバイアスが生じます。そのようなバイアスを排除し、公平で制御可能なデータセットを作るために、数式によって生成する手法を選んだとのことです。

ImageNetはJia教授が昔に発表したプロジェクトであり、10年以上の時を経てInfinigenという新たなデータセットに取り組んでいるというのはとても興味深いと感じました。

その他の研究

上に紹介した二つはどちらもデータセットについての研究でしたが、その一方で、三次元空間における画像処理を中心に、様々なモデルやアルゴリズムについての研究も発表されています。研究の方向性としては、主に点群やオプティカルフローなどの古典的な3D表現をベースに深層学習による処理を加え、よりロバストな表現を獲得するようなテーマが多い印象でした。

自分たちが受けたアドバイス

滞在期間中、派遣された学生は各々が三次元表現に関するテーマを与えられ、私は三次元再構成に取り組んでいました。教授との初めてのミーティングでの「実現したい目標に対して、どのような表現手法が適しているかを正しく選ぶことが重要だ」というアドバイスが心に残っています。CGの分野では点群、メッシュ、ボクセルなど様々な表現がありますが、私は一部の表現手法にのみ注目して研究の枠組みを考えていました。解きたい問題の本質を理解し、適したアプローチを選ぶことが第一歩だとの指摘でした。

近年はNeRFや3D Gaussian Splattingなどの新しい表現を使った三次元再構成が流行しています。ホットな分野であるだけについつい最新の手法に目を奪われがちですが、新しい手法には必ず基礎となる従来の表現があります。それを正しく学んで特性を理解することが重要だと改めて認識し、貴重な気づきを得る機会となりました。

ブログの第二回でも紹介されていましたが、Jia研究室の週例ミーティングでは “Old Paper” と称して深層学習以前の時代の論文を解説するコーナーがあります。最先端の研究に取り組みながらも既存手法の理解を重んじるJia教授のスタンスを、自分たちも学ぶことができたと思います。

引用

[1] https://www.image-net.org/

[2] “ImageNet: A Large-Scale Hierarchical Image Database”, Deng, J., et al. CVPR, 2009

[3] “Towards Fairer Datasets: Filtering and Balancing the Distribution of the People Subtree in the ImageNet Hierarchy”, Yang, K., et al., ACM FAccT, 2020

[4] “​​A Study of Face Obfuscation in ImageNet”, Yang, K., et al., ICML, 2020

[5] https://infinigen.org/

[6] “Infinite Photorealistic Worlds using Procedural Generation”, Raistrick, A. and Lipson, L. and Ma, Z., et al., CVPR, 2023

[7] “Infinigen Indoors: Photorealistic Indoor Scenes using Procedural Generation”, Raistrick, A. and Mei, L. and Kayan, K., et al., CVPR, 2024