SemLayoutDiff: Semantic Layout Generation with Diffusion Model for Indoor Scene Synthesis
2508.18597v1
cs.GR, cs.CV
2025-08-28
Авторы:
Xiaohao Sun, Divyam Goel, Angle X. Chang
Резюме на русском
--------------------------------------------
## Контекст
--------------------------------------------
**Область исследования:**
Успехи в области синтеза 3D-сцен значительно подкрепили интерес к созданию реалистичных виртуальных окружений. Однако существуют значительные проблемы, связанные с необходимостью учитывать различные архитектурные ограничения, которые часто игнорируются при синтезе сцен.
**Проблемы:**
Наиболее распространенные подходы синтеза 3D-сцен не учитывают структурных и архитектурных ограничений, что приводит к результатам, которые выглядят неестественными или непрактичными.
**Мотивация:**
Необходимо разработать модель, которая бы учитывала архитектурные ограничения, такие как размещение дверей и окон, и позволяла синтезировать разнообразные, реалистичные и спатечно корректные 3D-сцены.
## Метод
--------------------------------------------
**Методология:**
SemLayoutDiff представляет собой универсальную модель для синтеза разнообразных 3D-сцен внутренних пространств. Она вводит новую схему представления сцены, объединяющую верхнеуровневую семантическую карту и атрибуты для каждого объекта.
**Технические решения:**
Разработанное решение основано на диффузионной модели, которая может учитывать контекст архитектурных ограничений. Модель сначала генерирует целостную семантическую карту, а затем использует сеть с кросс-аттенцией для предсказания размещения мебели, соблюдающего установленные архитектурные ограничения.
**Архитектура:**
SemLayoutDiff представляет собой сочетание диффузионной модели и кросс-аттенционной сети. Диффузионная модель генерирует семантическую карту, а кросс-аттенционная сеть учитывает детализацию размещения мебели в соответствии с полученной картой.
## Результаты
--------------------------------------------
**Эксперименты:**
Данные для экспериментов были получены из базы 3D-FRONT. Метод был сравнен с другими подходами по многим критериям, включая степень реалистичности, степень согласованности с архитектурными ограничениями и разнообразие сцен.
**Результаты:**
Результаты экспериментов показали, что SemLayoutDiff значительно превосходит другие подходы в генерации сцен, которые учитывают архитектурные ограничения. Она производит более реалистичные и разнообразные сцены, при этом соблюдая все архитектурные ограничения.
## Значимость
--------------------------------------------
**Области применения:**
Результаты могут быть использованы в различных областях, включая игровую индустрию, виртуальные и архитектурные реалистичные симуляторы, а также в системых, ориентированных на создание виртуальных мест подходящих для действий.
**Преимущества:**
SemLayoutDiff позволяет генерировать более корректные по отно
Abstract
We present SemLayoutDiff, a unified model for synthesizing diverse 3D indoor
scenes across multiple room types. The model introduces a scene layout
representation combining a top-down semantic map and attributes for each
object. Unlike prior approaches, which cannot condition on architectural
constraints, SemLayoutDiff employs a categorical diffusion model capable of
conditioning scene synthesis explicitly on room masks. It first generates a
coherent semantic map, followed by a cross-attention-based network to predict
furniture placements that respect the synthesized layout. Our method also
accounts for architectural elements such as doors and windows, ensuring that
generated furniture arrangements remain practical and unobstructed. Experiments
on the 3D-FRONT dataset show that SemLayoutDiff produces spatially coherent,
realistic, and varied scenes, outperforming previous methods.
Ссылки и действия
Дополнительные ресурсы: