SemLayoutDiff: Semantic Layout Generation with Diffusion Model for Indoor Scene Synthesis

2508.18597v1 cs.GR, cs.CV 2025-08-28
Авторы:

Xiaohao Sun, Divyam Goel, Angle X. Chang

Резюме на русском

-------------------------------------------- ## Контекст -------------------------------------------- **Область исследования:** Успехи в области синтеза 3D-сцен значительно подкрепили интерес к созданию реалистичных виртуальных окружений. Однако существуют значительные проблемы, связанные с необходимостью учитывать различные архитектурные ограничения, которые часто игнорируются при синтезе сцен. **Проблемы:** Наиболее распространенные подходы синтеза 3D-сцен не учитывают структурных и архитектурных ограничений, что приводит к результатам, которые выглядят неестественными или непрактичными. **Мотивация:** Необходимо разработать модель, которая бы учитывала архитектурные ограничения, такие как размещение дверей и окон, и позволяла синтезировать разнообразные, реалистичные и спатечно корректные 3D-сцены. ## Метод -------------------------------------------- **Методология:** SemLayoutDiff представляет собой универсальную модель для синтеза разнообразных 3D-сцен внутренних пространств. Она вводит новую схему представления сцены, объединяющую верхнеуровневую семантическую карту и атрибуты для каждого объекта. **Технические решения:** Разработанное решение основано на диффузионной модели, которая может учитывать контекст архитектурных ограничений. Модель сначала генерирует целостную семантическую карту, а затем использует сеть с кросс-аттенцией для предсказания размещения мебели, соблюдающего установленные архитектурные ограничения. **Архитектура:** SemLayoutDiff представляет собой сочетание диффузионной модели и кросс-аттенционной сети. Диффузионная модель генерирует семантическую карту, а кросс-аттенционная сеть учитывает детализацию размещения мебели в соответствии с полученной картой. ## Результаты -------------------------------------------- **Эксперименты:** Данные для экспериментов были получены из базы 3D-FRONT. Метод был сравнен с другими подходами по многим критериям, включая степень реалистичности, степень согласованности с архитектурными ограничениями и разнообразие сцен. **Результаты:** Результаты экспериментов показали, что SemLayoutDiff значительно превосходит другие подходы в генерации сцен, которые учитывают архитектурные ограничения. Она производит более реалистичные и разнообразные сцены, при этом соблюдая все архитектурные ограничения. ## Значимость -------------------------------------------- **Области применения:** Результаты могут быть использованы в различных областях, включая игровую индустрию, виртуальные и архитектурные реалистичные симуляторы, а также в системых, ориентированных на создание виртуальных мест подходящих для действий. **Преимущества:** SemLayoutDiff позволяет генерировать более корректные по отно

Abstract

We present SemLayoutDiff, a unified model for synthesizing diverse 3D indoor scenes across multiple room types. The model introduces a scene layout representation combining a top-down semantic map and attributes for each object. Unlike prior approaches, which cannot condition on architectural constraints, SemLayoutDiff employs a categorical diffusion model capable of conditioning scene synthesis explicitly on room masks. It first generates a coherent semantic map, followed by a cross-attention-based network to predict furniture placements that respect the synthesized layout. Our method also accounts for architectural elements such as doors and windows, ensuring that generated furniture arrangements remain practical and unobstructed. Experiments on the 3D-FRONT dataset show that SemLayoutDiff produces spatially coherent, realistic, and varied scenes, outperforming previous methods.

Ссылки и действия