【論文紹介】Improved 3D Scene Stylization via Text-Guided Generative Image Editing with Region-Based Control
3D空間の再構築、および領域ごとの緻密な制御を伴う編集技術は、エンターテインメント領域の3Dアセットやデジタルツインの効率的な編集・更新を可能にする基盤となります。当研究室から発表された論文 "Improved 3D Scene Stylization via Text-Guided Generative Image Editing with Region-Based Control" では、テキスト指示に基づいて、領域ベースの制御を可能にした3D Gaussian Splatting [1] シーン向けの改善された3Dスタイル転写手法を提案しています。本研究は主要なグラフィックスの国際学会のひとつであるPacific Graphics 2025にて発表されました。
この成果により、映画やゲーム制作におけるアセット制作の効率化が図られるだけでなく、実社会に即したデジタルツインの高度な構築・編集が可能になります。これにより、都市計画における景観シミュレーションや、embodied AIの学習に不可欠な3D環境の整備といった、幅広い産業応用への貢献が期待されます。
この記事では、著者の藤原晴雄(Haruo Fujiwara)がこの研究について解説します。
この記事で紹介する論文
この記事では、以下の論文について紹介します。
Haruo Fujiwara, Yusuke Mukuta, Tatsuya Harada Improved 3D Scene Stylization via Text-Guided Generative Image Editing with Region-Based Control. Pacific Graphics 2025
論文の概要
近年、強力な2D画像生成モデルの知識を活用した、テキスト指示による3Dシーンの編集やスタイル転写の研究が進み、有望な結果を示しています。しかしながら、高品質なスタイル転写と視点間の一貫性(View Consistency)を同時に達成することには依然として課題が残されています。
さらに、シーン内の異なる領域やオブジェクトに対して、意味的な対応づけ(セマンティック・セグメンテーション)を保ちながら一貫して異なるスタイルを適用することは困難なタスクでした。 そこで本研究では、これらの課題に対処し、視点間の一貫性を維持しながら3Dスタイル転写の品質を向上させるとともに、特定の領域に対して選択的にスタイルを適用できる技術(マルチリージョンスタイライズ)を導入することを目的としています。
この論文で提案された手法・アルゴリズムなど
本手法のパイプラインの流れは以前に紹介のあった Style-NeRF2NeRF [2] と同様、主に元シーンの3D Gaussian Splattingを構築する「事前学習」、学習済み画像生成モデルを活用して元の多視点画像をスタイライズする「生成段階」と、スタイライズされた多視点画像を用いて元の3Dシーンを追加学習する「学習段階」の3つのステージで構成されています。

このプロセスにおいて、多視点画像における「スタイルの一貫性」と「視点間の一貫性」を両立しつつ、領域別にスタイル適用を制御する機能を実現するために、以下の3つのアプローチを採用しています。
単一参照ベースのアテンション共有(Single reference-based attention-sharing mechanism): 深度条件付きの多視点画像生成フレームワークを拡張し、従来の全共有アテンション機構を「単一の参照画像に基づくアテンション共有機構」に置き換えました。これにより、前回の手法よりもGPUメモリを節約しながら異なる視点間で効果的にスタイルを揃えることができるようになりました。
マルチ深度マップグリッドの活用: 近年の3Dインペインティング手法 [3] に着想を得て、複数の深度マップをグリッド状に並べたものを単一の画像参照として利用することで、生成される画像間の視点一貫性をさらに強化しています。

多領域対応型の重要度重み付きスライス・ワッサースタイン距離損失(Multi-Region Importance-Weighted Sliced Wasserstein Distance Loss)の導入: 既存のセグメンテーションモデル [4] から得られたマスクを利用し、高い計算効率を担保しつつ画像内の特定の領域ごとに異なるスタイルを適用可能にする独自の損失関数を提案しました。これにより、元のシーンの背景部分などをそのまま保持しつつ、別の特定の領域には異なる複数のスタイルを混在させて転写するといった、空間的に制御されたスタイル転写(Multi-Region Stylization)が可能になります。

実験結果
定性的および定量的な実験評価により、提案するパイプラインがテキスト駆動の3Dスタイル転写の結果を効果的に向上させることが示されました。また、様々なシーンやスタイルにおいて、視点の一貫性を保ちながら高品質なスタイル画像を生成できることが確認されています。

まとめ
本研究では、Gaussian Splattingを用いた3Dシーンに対し、テキスト指示と領域ベースの制御を用いて高品質かつ一貫性のあるスタイル転写を行う手法を紹介しました。領域ごとの制御機能により、元のシーンの重要な部分を保護しつつ、特定の被写体のみに忠実なスタイル転写を適用するなど、より柔軟な3Dコンテンツの編集が可能になります。本手法は、3Dシーンの表現を拡張し、空間の選択的なスタイル編集を実現する上で重要な一歩になったと考えています。
参考文献
[1] Kerbl, Bernhard, et al. "3d gaussian splatting for real-time radiance field rendering." ACM Trans. Graph. 42.4 (2023): 139-1.
[2] Fujiwara, Haruo, Yusuke Mukuta, and Tatsuya Harada. "Style-nerf2nerf: 3d style transfer from style-aligned multi-view images." SIGGRAPH Asia 2024 Conference Papers. 2024.
[3] Weber, Ethan, et al. "Nerfiller: Completing scenes via generative 3d inpainting." Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2024.
[4] Ravi, Nikhila, et al. "Sam 2: Segment anything in images and videos." arXiv preprint arXiv:2408.00714 (2024).
