LSD-3D: Large-Scale 3D Driving Scene Generation with Geometry Grounding

2508.19204v1 cs.CV, cs.AI, cs.GR 2025-08-28
Авторы:

Julian Ost, Andrea Ramazzina, Amogh Joshi, Maximilian Bömer, Mario Bijelic, Felix Heide

Резюме на русском

## Контекст Одной из основных проблем в области машинного обучения для роботов является недостаточность качественных данных для обучения и тестирования. Нейронные сети, используемые в робототехнике, часто требуют больших объемов данных, охватывающих разнообразные сцены и сценарии. Однако существующие методы, основанные на реконструкции нейросетевыми методами, часто привязаны к статическим сценам и имеют ограниченную гибкость в управлении сценами и траекториями. Это ограничивает их применение в ситуациях, требующих более высокой динамичности и контроля. Методы, основанные на искусственных изображениях и видео, предлагают большую гибкость в управлении, однако часто страдают от недостатка геометрической точности и причинности. Наша мотивация заключается в создании метода, который бы объединил точность геометрии и высокую динамичность, обеспечивая полную управляемость и реалистичность в генерации трехмерных сцен. ## Метод Мы предлагаем LSD-3D (Large-Scale 3D Driving Scene Generation with Geometry Grounding) — метод, который комбинирует прокси-геометрию и средства оболочечной интерпретации с обученными признаками из моделей изображений. Метод работает в два этапа: в первом этапе производится генерация прокси-геометрии с помощью специальной архитектуры, которая берет в качестве входных данных карты местности и порождает трехмерные модели. Во втором этапе используется процедура score distillation, которая взята из обученных моделей изображений, чтобы уточнить детали текстуры и структуры. Ключевой особенностью метода является его гибкость: он позволяет гиперпараметрически управлять геометрией, текстурой и структурой сцены, в то же время сохраняя геометрическую точность и причинность. Это делает LSD-3D уникальным в способности генерировать реалистичные трехмерные сцены во всём различии индивидуальности и разнообразия. ## Результаты Мы проверили наш метод на различных корпусах данных, включая карты местности и данные сенсорных систем. Для оценки качества генерации проводились эксперименты, в которых сравнивались наш метод с существующими системами, ориентированными на геометрию и текстурное описание. Результаты показали, что LSD-3D превосходит другие подходы в терминах точности геометрии и качества текстурной детализации. Особенно выдаются результаты, связанные с гибкостью в управлении, что позволяет сгенерировать сцены в разнообразных условиях. Также, проведенные эксперименты показали высокую степень объектной перманентности и точность в оценке трёхмерной геометрии. ## Значимо

Abstract

Large-scale scene data is essential for training and testing in robot learning. Neural reconstruction methods have promised the capability of reconstructing large physically-grounded outdoor scenes from captured sensor data. However, these methods have baked-in static environments and only allow for limited scene control -- they are functionally constrained in scene and trajectory diversity by the captures from which they are reconstructed. In contrast, generating driving data with recent image or video diffusion models offers control, however, at the cost of geometry grounding and causality. In this work, we aim to bridge this gap and present a method that directly generates large-scale 3D driving scenes with accurate geometry, allowing for causal novel view synthesis with object permanence and explicit 3D geometry estimation. The proposed method combines the generation of a proxy geometry and environment representation with score distillation from learned 2D image priors. We find that this approach allows for high controllability, enabling the prompt-guided geometry and high-fidelity texture and structure that can be conditioned on map layouts -- producing realistic and geometrically consistent 3D generations of complex driving scenes.

Ссылки и действия