Improved 3D Scene Stylization via Text-Guided Generative Image Editing with Region-Based Control

2509.05285v1 cs.GR, cs.CV 2025-09-09

Авторы:

Haruo Fujiwara, Yusuke Mukuta, Tatsuya Harada

Резюме на русском

## Контекст Одним из основных направлений в искусственном интеллекте является 3D-сценарии стилизация, которая позволяет преобразовывать пространственные структуры с помощью текстовых инструкций. Теперь, благодаря развитию технологий генерирующих изображений, возможно реализовать эти сценарии в 3D-пространстве. Однако существуют ряд проблем, которые необходимо решить. В частности, требуется обеспечить высокое качество стилизации, интеллектуальный способ контроля стиля в разных областях сцены и сохранение консистентности вида при перекрытии различных углов вида. ## Метод Мы предлагаем метод, который улучшает 3D-сценарии стилизации, делая это более точным и контролируемым. Метод заключается в переусвоении 3D-представления исходной сцены на основе стаилизированных 2D-изображений. Это достигается за счет расширения фреймфорка стилизованного глубинного распознавания вида, в котором заменяется полностью общий механизм внимания на специальный, ориентированный на специфические сегменты. Это позволяет сохранить взаимную аллигацию стиля между различными видами. Для улучшения контроля за стилем в изображениях мы вводим новую методику, основанную на трёхмерном восстановлении, которая позволяет добиться более точного управления стилем в определенных областях. Также, для улучшения качества стилизации мы разрабатываем специальный метод группировки данных, который позволяет стилизовать разные области сцены с требуемой точностью. ## Результаты Мы провели эксперименты с существующими методами, чтобы проверить эффективность нашего подхода. Мы использовали данные с различных источников, чтобы оценить степень улучшения 3D-стилизации. У нас были достигнуты следующие результаты: высокое качество стилизации, оптимизированное время подготовки и новые возможности для управления стилем в разных областях сцены. Эксперименты также показали, что наш подход эффективен в различных сценариях и позволяет добиться значительного улучшения качества стилизации. ## Значимость Метод, предложенный нами, может быть применён в различных областях, включая виртуальную реальность, графику или 3D-интерфейсы. Наш подход не только повышает качество 3D-стилизации, но и обеспечивает более гибкие возможности контроля стиля и консистентности вида. Это может потенциально повлиять на развитие ряда технологий, связанных с 3D-интерфейсами и виртуальными реалиями, и позволит разработчикам создавать более натуральные и привлекательные 3D-сцены. ## Выводы Мы предложили метод для улучшения 3D-стилизации, основанный на

Abstract

Recent advances in text-driven 3D scene editing and stylization, which leverage the powerful capabilities of 2D generative models, have demonstrated promising outcomes. However, challenges remain in ensuring high-quality stylization and view consistency simultaneously. Moreover, applying style consistently to different regions or objects in the scene with semantic correspondence is a challenging task. To address these limitations, we introduce techniques that enhance the quality of 3D stylization while maintaining view consistency and providing optional region-controlled style transfer. Our method achieves stylization by re-training an initial 3D representation using stylized multi-view 2D images of the source views. Therefore, ensuring both style consistency and view consistency of stylized multi-view images is crucial. We achieve this by extending the style-aligned depth-conditioned view generation framework, replacing the fully shared attention mechanism with a single reference-based attention-sharing mechanism, which effectively aligns style across different viewpoints. Additionally, inspired by recent 3D inpainting methods, we utilize a grid of multiple depth maps as a single-image reference to further strengthen view consistency among stylized images. Finally, we propose Multi-Region Importance-Weighted Sliced Wasserstein Distance Loss, allowing styles to be applied to distinct image regions using segmentation masks from off-the-shelf models. We demonstrate that this optional feature enhances the faithfulness of style transfer and enables the mixing of different styles across distinct regions of the scene. Experimental evaluations, both qualitative and quantitative, demonstrate that our pipeline effectively improves the results of text-driven 3D stylization.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Improved 3D Scene Stylization via Text-Guided Generative Image Editing with Region-Based Control

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Radiance Meshes for Volumetric Reconstruction

Efficient Spatially-Variant Convolution via Differentiable Sparse Kernel Complex

TagSplat: Topology-Aware Gaussian Splatting for Dynamic Mesh Modeling and Tracki...

Geodiffussr: Generative Terrain Texturing with Elevation Fidelity

Inverse Rendering for High-Genus Surface Meshes from Multi-View Images

Навигация