LiDARCrafter: Dynamic 4D World Modeling from LiDAR Sequences
2508.03692v1
cs.CV, cs.RO
2025-08-09
Авторы:
Ao Liang, Youquan Liu, Yu Yang, Dongyue Lu, Linfeng Li, Lingdong Kong, Huaici Zhao, Wei Tsang Ooi
Резюме на русском
LiDAR выявляет среду вокруг автомобиля в виде распределения точек в пространстве, обеспечивая ключевую информацию для автономных систем движения. Однако существующие модели генерации 4D моделей среды недостаточно учитывают специфику LiDAR, включая его динамическую природу и сложности в управляемости и консистентности сцены. Для решения этой проблемы предлагается LiDARCrafter — универсальный фреймворк для 4D генерации и редактирования LiDAR-последовательностей. Авторы предлагают построение эго-центрических сценных графов на основе натурального языка, которые управляют сложной сетью diffusion-генераторов для строительства объектов, движений и геометрии. Для обеспечения гладкого потока времени реализован авторегрессионный модуль. Кроме того, авторы предлагают комплексный бенчмарк для оценки качества моделей с точки зрения сцены, объектов и последовательности. Опыт на датасете nuScenes показывает, что LiDARCrafter демонстрирует лучшие результаты по фидбеку, управляемости и гладкости временных потоков. Этот подход открывает новые возможности для дата-аугментации и симуляции в автоматизированных системах.
Abstract
Generative world models have become essential data engines for autonomous
driving, yet most existing efforts focus on videos or occupancy grids,
overlooking the unique LiDAR properties. Extending LiDAR generation to dynamic
4D world modeling presents challenges in controllability, temporal coherence,
and evaluation standardization. To this end, we present LiDARCrafter, a unified
framework for 4D LiDAR generation and editing. Given free-form natural language
inputs, we parse instructions into ego-centric scene graphs, which condition a
tri-branch diffusion network to generate object structures, motion
trajectories, and geometry. These structured conditions enable diverse and
fine-grained scene editing. Additionally, an autoregressive module generates
temporally coherent 4D LiDAR sequences with smooth transitions. To support
standardized evaluation, we establish a comprehensive benchmark with diverse
metrics spanning scene-, object-, and sequence-level aspects. Experiments on
the nuScenes dataset using this benchmark demonstrate that LiDARCrafter
achieves state-of-the-art performance in fidelity, controllability, and
temporal consistency across all levels, paving the way for data augmentation
and simulation. The code and benchmark are released to the community.
Ссылки и действия
Дополнительные ресурсы: