SceneWeaver: All-in-One 3D Scene Synthesis with an Extensible and Self-Reflective Agent

2509.20414v1 cs.GR, cs.CV, cs.LG, cs.RO 2025-09-26
Авторы:

Yandan Yang, Baoxiong Jia, Shujie Zhang, Siyuan Huang

Резюме на русском

## Контекст Область виртуальных и интерактивных 3D-сред у presedstavljaet важность в сферах, таких как Embodied AI, имитационные игры, виртуальная реальность и интеллектуальные агенты. Однако создание 3D-сцен, которые не только выглядят реалистично, но и логично организованы с точки зрения физики и функциональности, остается сложной задачей. Существующие подходы часто ограничиваются фиксированными категориями сцен или недостаточным детализмом объектов, что приводит к несоответствию пользовательских инструкций или функциональным требованиям. Эти ограничения способствуют поиску новых подходов, которые могли бы объединить возможности различных методов синтеза сцен, обеспечивая гибкость и точность. ## Метод SceneWeaver — это расширяемый и саморефлексирующий фреймворк, который объединяет различные методы синтеза 3D-сцен с использованием инструментов основанных на генеративных моделях и технологиях глубокого обучения. Основным компонентом является language model-based planner, который выбирает соответствующие инструменты на каждом этапе синтеза. Эти инструменты включают в себя сгенерированные с помощью моделей глубокого обучения, а также методы, основанные на визуальных и текстовых сигналах. Фреймворк работает в замкнутом цикле: планировщик оценивает физическую точность, визуальную реалистичность и семантическое соответствие, а затем применяет нужные инструменты для корректировки сцены. Этот подход позволяет SceneWeaver адаптироваться к различным сценариям и компонентам, создавая более точные и функционально разнообразные сцены. ## Результаты Наблюдается значительное улучшение в основных метриках, включая физическую точность, визуальную реалистичность и семантическую аккуратность. SceneWeaver показал способность эффективно обрабатывать сложные пользовательские инструкции и охватывать широкий спектр сценариев. Эксперименты проводились на различных типах сцен, включая общедоступные комнаты и сцены с открытым словарем. Это позволило установить, что SceneWeaver превосходит другие методы как на тестовых, так и на реальных пользовательских задачах. ## Значимость Сцены, сгенерированные SceneWeaver, могут использоваться в различных приложениях, таких как Embodied AI, имитационные игры, виртуальная реальность и дизайн интерьеров. Главный преимущество этого подхода заключается в его расширяемости и саморефлексирующей структуре, которая позволяет улучшать качество сцен во время выполнения. Это открывает путь к новым возможностям в области генеративных моделей и интерактивных систем. ## Выводы SceneWeaver представляет собой полностью расширяем

Abstract

Indoor scene synthesis has become increasingly important with the rise of Embodied AI, which requires 3D environments that are not only visually realistic but also physically plausible and functionally diverse. While recent approaches have advanced visual fidelity, they often remain constrained to fixed scene categories, lack sufficient object-level detail and physical consistency, and struggle to align with complex user instructions. In this work, we present SceneWeaver, a reflective agentic framework that unifies diverse scene synthesis paradigms through tool-based iterative refinement. At its core, SceneWeaver employs a language model-based planner to select from a suite of extensible scene generation tools, ranging from data-driven generative models to visual- and LLM-based methods, guided by self-evaluation of physical plausibility, visual realism, and semantic alignment with user input. This closed-loop reason-act-reflect design enables the agent to identify semantic inconsistencies, invoke targeted tools, and update the environment over successive iterations. Extensive experiments on both common and open-vocabulary room types demonstrate that SceneWeaver not only outperforms prior methods on physical, visual, and semantic metrics, but also generalizes effectively to complex scenes with diverse instructions, marking a step toward general-purpose 3D environment generation. Project website: https://scene-weaver.github.io/.

Ссылки и действия