Lyra: Generative 3D Scene Reconstruction via Video Diffusion Model Self-Distillation
2509.19296v1
cs.CV, cs.GR
2025-09-25
Авторы:
Sherwin Bahmani, Tianchang Shen, Jiawei Ren, Jiahui Huang, Yifeng Jiang, Haithem Turki, Andrea Tagliasacchi, David B. Lindell, Zan Gojcic, Sanja Fidler, Huan Ling, Jun Gao, Xuanchi Ren
Резюме на русском
#### Контекст
Область исследования, связанная с генерированием виртуальных сред, играет ключевую роль в многих технологических и научных директориях, включая игровой индустрию, робототехнику, автономное вождение и индустриальные приложения. Однако существующие методы генерирования 3D-сцен часто требуют значительных ресурсов на обучение, в том числе многокамерного видео, которого не всегда достаточно в реальном мире. Этот факт ограничивает широкое применение таких методов. Более того, новые развития в области видеодиффузионных моделей очень успешно имитируют реальные сцены в 2D, но не могут предсказывать конкретные 3D-свойства окружения, необходимые для взаимодействия с автономными агентами в симуляции. Мы предлагаем Lyra — протокол самообучения, который позволяет эксплуатировать 3D-свойства, внедренные в видеодиффузионные модели, для создания 3D-сцен, не требуя многокамерного видео.
#### Метод
Предлагаемая Lyra основывается на фреймворке самообучения, который работает на синтетических данных, генерируемых с помощью видеодиффузионных моделей. Мы расширяем типичную архитектуру модели RGB-decoder, добавляя decode-раздел для 3D-поверхности с использованием Gaussian Splatting (3DGS). Этот новый модуль автоматически связан с RGB-decoder: выход 3DGS-модели воспален с выходом цветного модели RGB. Таким образом, 3DGS-модель может быть обучена только на потоке 3D-сцен, генерируемых видеодиффузионной моделью. В результате модель осуществляет 3D-реконструкцию сингулярного входа, такого как текстовая запроса или единственной картинки, направленной на осуществление 3D-генерации в реальном времени. Для создания динамических 3D-сцен, мы расширяем модель, позволяя ей обучаться на монокумерном видео.
#### Результаты
Мы проверили Lyra на двух типах задач: статической и динамической 3D-генерации сцен. Мы использовали данные из различных баз данных (видеодиффузионных моделей) и сингулярного входа (текстовые запросы, единственные изображения). Наши эксперименты показали, что Lyra превосходит текущие методы в генерации как статических, так и динамических 3D-сцен. Мы также демонстрируем, что наша модель может генерировать реалистичные 3D-сцены в реальном времени, что делает её применимую в игровой индустрии, вождении автономных машин и других приложениях.
#### Значимость
Lyra открывает новые возможности для генерирования 3D-сцен в приложениях, требующих взаимодействия с 3D-окружением. Она может использоваться в симуляционных средах для роботов, вождения автономных
Abstract
The ability to generate virtual environments is crucial for applications
ranging from gaming to physical AI domains such as robotics, autonomous
driving, and industrial AI. Current learning-based 3D reconstruction methods
rely on the availability of captured real-world multi-view data, which is not
always readily available. Recent advancements in video diffusion models have
shown remarkable imagination capabilities, yet their 2D nature limits the
applications to simulation where a robot needs to navigate and interact with
the environment. In this paper, we propose a self-distillation framework that
aims to distill the implicit 3D knowledge in the video diffusion models into an
explicit 3D Gaussian Splatting (3DGS) representation, eliminating the need for
multi-view training data. Specifically, we augment the typical RGB decoder with
a 3DGS decoder, which is supervised by the output of the RGB decoder. In this
approach, the 3DGS decoder can be purely trained with synthetic data generated
by video diffusion models. At inference time, our model can synthesize 3D
scenes from either a text prompt or a single image for real-time rendering. Our
framework further extends to dynamic 3D scene generation from a monocular input
video. Experimental results show that our framework achieves state-of-the-art
performance in static and dynamic 3D scene generation.
Ссылки и действия
Дополнительные ресурсы: