Learning to Generate 4D LiDAR Sequences

2509.11959v1 cs.CV, cs.RO 2025-09-17

Авторы:

Ao Liang, Youquan Liu, Yu Yang, Dongyue Lu, Linfeng Li, Lingdong Kong, Huaici Zhao, Wei Tsang Ooi

Резюме на русском

## Контекст Область исследования связана с развитием методов генерирования 4D LiDAR-секвенций. Это важно для улучшения 3D-перцепции, необходимой для автоматизированных систем съемки, видеомониторинга и транспортных систем. Существующие подходы, ориентированные на видео и отображение областей, не полностью соответствуют требованиям к LiDAR-данным, таким как синхронность, контролируемость и темпоральная стабильность. Эти проблемы мотивируют разработку более эффективных алгоритмов, которые могут генерировать высококачественные 4D LiDAR-секвенции с учетом требований к реалистичности и управляемости. ## Метод Предлагаемая методология, LiDARCrafter, представляет собой универсальный фреймворк, который преобразует естественный язык в редактируемые 4D LiDAR-секвенции. Языковые команды преобразуются в сценовые графы в его-центрической представлении, выступающие в качестве основы для последующей работы. Для генерации начального скана используется модель диффузии по дательному изображению, которая вводит в многоугольный бакеты для каждого объекта. Авторегрессионный модуль расширяет этот скан в последовательность, обеспечивая темпоральную стабильность и контролируемость. Для экспериментов используются данные nuScenes, обрабатываемые с использованием EvalSuite — подробной бенчмарковой системой, оценивающей качество генерируемых данных по различным метрикам. ## Результаты Экспериментальная оценка показала, что LiDARCrafter превосходит конкурирующие методы по нескольким критериям: фидбелности, контролируемости и темпоральной стабильности. На датасете nuScenes, модель достигла значительно вышей точности в генерировании и последовательности, сравнительно с другими подходами. Оценка с помощью EvalSuite позволяет тщательно измерить выполнение каждой подсистемы. Это демонстрирует, что LiDARCrafter не только генерирует высококачественные данные, но и обеспечивает уникальную возможность редактировать эти данные на уровне объектов, что является ключевым преимуществом. ## Значимость LiDARCrafter может быть применен в различных областях, включая симуляционные системы для проверки роботов, автомобилей без водителя и поддержку виртуальной реальности. Он предоставляет не только высококачественные данные, но и возможность управлять содержимым, что значительно увеличивает его ценность. Благодаря эффективной архитектуре и уникальным возможностям редактирования, LiDARCrafter может повысить эффективность в процессе разработки и тестирования систем, основанных на LiDAR. ## Выводы Основным достижением является разработка LiDARCrafter — пер

Abstract

While generative world models have advanced video and occupancy-based data synthesis, LiDAR generation remains underexplored despite its importance for accurate 3D perception. Extending generation to 4D LiDAR data introduces challenges in controllability, temporal stability, and evaluation. We present LiDARCrafter, a unified framework that converts free-form language into editable LiDAR sequences. Instructions are parsed into ego-centric scene graphs, which a tri-branch diffusion model transforms into object layouts, trajectories, and shapes. A range-image diffusion model generates the initial scan, and an autoregressive module extends it into a temporally coherent sequence. The explicit layout design further supports object-level editing, such as insertion or relocation. To enable fair assessment, we provide EvalSuite, a benchmark spanning scene-, object-, and sequence-level metrics. On nuScenes, LiDARCrafter achieves state-of-the-art fidelity, controllability, and temporal consistency, offering a foundation for LiDAR-based simulation and data augmentation.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Learning to Generate 4D LiDAR Sequences

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

FASTer: Toward Efficient Autoregressive Vision Language Action Modeling via neur...

Object Reconstruction under Occlusion with Generative Priors and Contact-induced...

Image Generation as a Visual Planner for Robotic Manipulation

TrajDiff: End-to-end Autonomous Driving without Perception Annotation

SwiftVLA: Unlocking Spatiotemporal Dynamics for Lightweight VLA Models at Minima...

Навигация