【論文紹介】Style-NeRF2NeRF: 3Dシーンのスタイル転写

本論文"Style-NeRF2NeRF: 3D Style Transfer from Style-Aligned Multi-View Images"では、多視点画像から深層学習によって構築された3DシーンのNeRFモデルに対し、スタイル転写を行うための手法を提案しています。本稿では著者の藤原 晴雄がこの研究について解説します。本研究は2024年12月開催のSIGGRAPH ASIAにて発表予定です。

arxivリンク:https://arxiv.org/abs/2406.13393

リンク:https://haruolabs.github.io/style-n2n/

研究背景・目的

画像のスタイル転写・編集とは、既存の画像の画風を変換するタスクであり、写真の画風を意図する芸術的な表現のために変更したり、被写体の撮影環境を編集することができます。効果的なスタイル転写はコンテンツ制作やロボット工学のためのデータ拡張といった応用が考えられます。

2D画像に対するスタイル転写[1]はこれまでに多くの手法が提案されていますが、3Dシーンに対して同様のスタイル転写を実現するためには、任意の視点間で破綻なく一貫した外観を保つ必要があるといった課題がありました。

近年、NeRF[2]をはじめとする3D表現モデルと強力な2D画像生成モデル[3]の技術的な掛け合わせによって、テキスト指示によって3Dスタイル転写を行うinstruct-NeRF2NeRF[4]のような研究事例も登場しました。

しかし、これらの手法は3D表現モデルの追加学習プロセスにおいて拡散モデルの知識蒸留を行うため、最終的に得られる変換シーンの画風制御が容易ではないという課題がありました。

手法と結果

既存の画像生成モデルを使っても複数視点に渡って一貫した画像の生成を行うのは難しいことが知られています。そこで本研究では拡散モデルを活用した既存手法[5]によってスタイルの統一された多視点画像の事前生成を行い、それらを用いて元のNeRFモデルを追加訓練します。

従来のNeRF訓練では写実的な再構築を目的として主にピクセル間のL2誤差を利用しますが、追加学習フェーズではスタイル転写のみを効率的に進めるために、画像スタイルの特徴をうまく表現することで知られている画像認識モデルVGG19[6]の特徴マップ間におけるスライス・ワッサースタイン距離を損失関数として採用します。これにより、すでに構築済みである3Dシーンのジオメトリを破壊することなく、効果的に3Dスタイル転写を行うことが可能です。

また、スライス・ワッサースタイン重心に向けてシーンを最適化することにより、複数のスタイルを合成することもできます。

テキスト指示による画像生成をNeRFモデルの追加学習前に行うことから、3Dスタイル転写結果を従来手法に比べて事前に想定しやすいこともメリットになっています。

まとめ

本研究では多視点画像からNeRFモデルとして再構築された3Dシーンに対し、テキスト指示に基づいてスタイル転写を行う効果的な手法を紹介しました。これにより、映像・ゲームといったコンテンツ制作の高度化、データ拡張によるロボット工学の発展といった形で社会に貢献することをめざしています。

参考文献

[1] Jing, Yongcheng, et al. "Neural style transfer: A review." IEEE transactions on visualization and computer graphics 26.11 (2019): 3365-3385.

[2] Mildenhall, Ben, et al. NeRF: Representing scenes as neural radiance fields for view synthesis. European Conference on Computer Vision (ECCV), 2020.

[3] Rombach, Robin, et al. "High-resolution image synthesis with latent diffusion models." Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2022.

[4] Haque, Ayaan, et al. "Instruct-nerf2nerf: Editing 3d scenes with instructions." Proceedings of the IEEE/CVF International Conference on Computer Vision. 2023.

[5] Hertz, Amir, et al. "Style aligned image generation via shared attention." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2024.[6] Simonyan, Karen, and Andrew Zisserman. "Very deep convolutional networks for large-scale image recognition." arXiv preprint arXiv:1409.1556 (2014).