La La LiDAR: Large-Scale Layout Generation from LiDAR Data

2508.03691v1 cs.CV, cs.RO 2025-08-09
Авторы:

Youquan Liu, Lingdong Kong, Weidong Yang, Xin Li, Ao Liang, Runnan Chen, Ben Fei, Tongliang Liu

Резюме на русском

Одной из ключевых задач в области робототехники и автомобильной промышленности является эффективное генерирование трехмерных сцен, основанных на LiDAR-данных. Традиционные модели, основанные на распространении, достигают высокого качества в создании LiDAR-сцен, но их лишено явного способа контролировать формацию форений и семантических отношений, что ограничивает их применение в симуляции сценариев и валидации безопасности. Для решения этих проблем предлагается Large-scale Layout-guided LiDAR generation model ("La La LiDAR") — новая рамочная модель, которая вводит семантически улучшенный сценной граф с отношениями в контекстном конджиционировании для структурированного генерирования LiDAR-сцен, а также внедрение управления форением для полного сцены. Это позволяет генерировать LiDAR-сцены, которые могут быть гибко настроены в отношении расположения объектов, сохраняя семантическую и пространственную согласованность. Для поддержки этой работы авторы представили два больших датасета LiDAR-сцен — Waymo-SG и nuScenes-SG, а также новые метрики для оценки графов сцен. Эксперименты показали, что La La LiDAR превышает состояние техники в генерировании LiDAR-сцен и показала себя в задачах предсказания перцепции, установив новый бенчмарк для контролируемого 3D-генерирования сцен.

Abstract

Controllable generation of realistic LiDAR scenes is crucial for applications such as autonomous driving and robotics. While recent diffusion-based models achieve high-fidelity LiDAR generation, they lack explicit control over foreground objects and spatial relationships, limiting their usefulness for scenario simulation and safety validation. To address these limitations, we propose Large-scale Layout-guided LiDAR generation model ("La La LiDAR"), a novel layout-guided generative framework that introduces semantic-enhanced scene graph diffusion with relation-aware contextual conditioning for structured LiDAR layout generation, followed by foreground-aware control injection for complete scene generation. This enables customizable control over object placement while ensuring spatial and semantic consistency. To support our structured LiDAR generation, we introduce Waymo-SG and nuScenes-SG, two large-scale LiDAR scene graph datasets, along with new evaluation metrics for layout synthesis. Extensive experiments demonstrate that La La LiDAR achieves state-of-the-art performance in both LiDAR generation and downstream perception tasks, establishing a new benchmark for controllable 3D scene generation.

Ссылки и действия