La La LiDAR: Large-Scale Layout Generation from LiDAR Data
2508.03691v1
cs.CV, cs.RO
2025-08-09
Авторы:
Youquan Liu, Lingdong Kong, Weidong Yang, Xin Li, Ao Liang, Runnan Chen, Ben Fei, Tongliang Liu
Резюме на русском
Одной из ключевых задач в области робототехники и автомобильной промышленности является эффективное генерирование трехмерных сцен, основанных на LiDAR-данных. Традиционные модели, основанные на распространении, достигают высокого качества в создании LiDAR-сцен, но их лишено явного способа контролировать формацию форений и семантических отношений, что ограничивает их применение в симуляции сценариев и валидации безопасности. Для решения этих проблем предлагается Large-scale Layout-guided LiDAR generation model ("La La LiDAR") — новая рамочная модель, которая вводит семантически улучшенный сценной граф с отношениями в контекстном конджиционировании для структурированного генерирования LiDAR-сцен, а также внедрение управления форением для полного сцены. Это позволяет генерировать LiDAR-сцены, которые могут быть гибко настроены в отношении расположения объектов, сохраняя семантическую и пространственную согласованность. Для поддержки этой работы авторы представили два больших датасета LiDAR-сцен — Waymo-SG и nuScenes-SG, а также новые метрики для оценки графов сцен. Эксперименты показали, что La La LiDAR превышает состояние техники в генерировании LiDAR-сцен и показала себя в задачах предсказания перцепции, установив новый бенчмарк для контролируемого 3D-генерирования сцен.
Abstract
Controllable generation of realistic LiDAR scenes is crucial for applications
such as autonomous driving and robotics. While recent diffusion-based models
achieve high-fidelity LiDAR generation, they lack explicit control over
foreground objects and spatial relationships, limiting their usefulness for
scenario simulation and safety validation. To address these limitations, we
propose Large-scale Layout-guided LiDAR generation model ("La La LiDAR"), a
novel layout-guided generative framework that introduces semantic-enhanced
scene graph diffusion with relation-aware contextual conditioning for
structured LiDAR layout generation, followed by foreground-aware control
injection for complete scene generation. This enables customizable control over
object placement while ensuring spatial and semantic consistency. To support
our structured LiDAR generation, we introduce Waymo-SG and nuScenes-SG, two
large-scale LiDAR scene graph datasets, along with new evaluation metrics for
layout synthesis. Extensive experiments demonstrate that La La LiDAR achieves
state-of-the-art performance in both LiDAR generation and downstream perception
tasks, establishing a new benchmark for controllable 3D scene generation.
Ссылки и действия
Дополнительные ресурсы: