LSD-3D: Large-Scale 3D Driving Scene Generation with Geometry Grounding
2508.19204v1
cs.CV, cs.AI, cs.GR
2025-08-28
Авторы:
Julian Ost, Andrea Ramazzina, Amogh Joshi, Maximilian Bömer, Mario Bijelic, Felix Heide
Резюме на русском
## Контекст
Одной из основных проблем в области машинного обучения для роботов является недостаточность качественных данных для обучения и тестирования. Нейронные сети, используемые в робототехнике, часто требуют больших объемов данных, охватывающих разнообразные сцены и сценарии. Однако существующие методы, основанные на реконструкции нейросетевыми методами, часто привязаны к статическим сценам и имеют ограниченную гибкость в управлении сценами и траекториями. Это ограничивает их применение в ситуациях, требующих более высокой динамичности и контроля. Методы, основанные на искусственных изображениях и видео, предлагают большую гибкость в управлении, однако часто страдают от недостатка геометрической точности и причинности. Наша мотивация заключается в создании метода, который бы объединил точность геометрии и высокую динамичность, обеспечивая полную управляемость и реалистичность в генерации трехмерных сцен.
## Метод
Мы предлагаем LSD-3D (Large-Scale 3D Driving Scene Generation with Geometry Grounding) — метод, который комбинирует прокси-геометрию и средства оболочечной интерпретации с обученными признаками из моделей изображений. Метод работает в два этапа: в первом этапе производится генерация прокси-геометрии с помощью специальной архитектуры, которая берет в качестве входных данных карты местности и порождает трехмерные модели. Во втором этапе используется процедура score distillation, которая взята из обученных моделей изображений, чтобы уточнить детали текстуры и структуры. Ключевой особенностью метода является его гибкость: он позволяет гиперпараметрически управлять геометрией, текстурой и структурой сцены, в то же время сохраняя геометрическую точность и причинность. Это делает LSD-3D уникальным в способности генерировать реалистичные трехмерные сцены во всём различии индивидуальности и разнообразия.
## Результаты
Мы проверили наш метод на различных корпусах данных, включая карты местности и данные сенсорных систем. Для оценки качества генерации проводились эксперименты, в которых сравнивались наш метод с существующими системами, ориентированными на геометрию и текстурное описание. Результаты показали, что LSD-3D превосходит другие подходы в терминах точности геометрии и качества текстурной детализации. Особенно выдаются результаты, связанные с гибкостью в управлении, что позволяет сгенерировать сцены в разнообразных условиях. Также, проведенные эксперименты показали высокую степень объектной перманентности и точность в оценке трёхмерной геометрии.
## Значимо
Abstract
Large-scale scene data is essential for training and testing in robot
learning. Neural reconstruction methods have promised the capability of
reconstructing large physically-grounded outdoor scenes from captured sensor
data. However, these methods have baked-in static environments and only allow
for limited scene control -- they are functionally constrained in scene and
trajectory diversity by the captures from which they are reconstructed. In
contrast, generating driving data with recent image or video diffusion models
offers control, however, at the cost of geometry grounding and causality. In
this work, we aim to bridge this gap and present a method that directly
generates large-scale 3D driving scenes with accurate geometry, allowing for
causal novel view synthesis with object permanence and explicit 3D geometry
estimation. The proposed method combines the generation of a proxy geometry and
environment representation with score distillation from learned 2D image
priors. We find that this approach allows for high controllability, enabling
the prompt-guided geometry and high-fidelity texture and structure that can be
conditioned on map layouts -- producing realistic and geometrically consistent
3D generations of complex driving scenes.
Ссылки и действия
Дополнительные ресурсы: