Learning to Generate 4D LiDAR Sequences
2509.11959v1
cs.CV, cs.RO
2025-09-17
Авторы:
Ao Liang, Youquan Liu, Yu Yang, Dongyue Lu, Linfeng Li, Lingdong Kong, Huaici Zhao, Wei Tsang Ooi
Резюме на русском
## Контекст
Область исследования связана с развитием методов генерирования 4D LiDAR-секвенций. Это важно для улучшения 3D-перцепции, необходимой для автоматизированных систем съемки, видеомониторинга и транспортных систем. Существующие подходы, ориентированные на видео и отображение областей, не полностью соответствуют требованиям к LiDAR-данным, таким как синхронность, контролируемость и темпоральная стабильность. Эти проблемы мотивируют разработку более эффективных алгоритмов, которые могут генерировать высококачественные 4D LiDAR-секвенции с учетом требований к реалистичности и управляемости.
## Метод
Предлагаемая методология, LiDARCrafter, представляет собой универсальный фреймворк, который преобразует естественный язык в редактируемые 4D LiDAR-секвенции. Языковые команды преобразуются в сценовые графы в его-центрической представлении, выступающие в качестве основы для последующей работы. Для генерации начального скана используется модель диффузии по дательному изображению, которая вводит в многоугольный бакеты для каждого объекта. Авторегрессионный модуль расширяет этот скан в последовательность, обеспечивая темпоральную стабильность и контролируемость. Для экспериментов используются данные nuScenes, обрабатываемые с использованием EvalSuite — подробной бенчмарковой системой, оценивающей качество генерируемых данных по различным метрикам.
## Результаты
Экспериментальная оценка показала, что LiDARCrafter превосходит конкурирующие методы по нескольким критериям: фидбелности, контролируемости и темпоральной стабильности. На датасете nuScenes, модель достигла значительно вышей точности в генерировании и последовательности, сравнительно с другими подходами. Оценка с помощью EvalSuite позволяет тщательно измерить выполнение каждой подсистемы. Это демонстрирует, что LiDARCrafter не только генерирует высококачественные данные, но и обеспечивает уникальную возможность редактировать эти данные на уровне объектов, что является ключевым преимуществом.
## Значимость
LiDARCrafter может быть применен в различных областях, включая симуляционные системы для проверки роботов, автомобилей без водителя и поддержку виртуальной реальности. Он предоставляет не только высококачественные данные, но и возможность управлять содержимым, что значительно увеличивает его ценность. Благодаря эффективной архитектуре и уникальным возможностям редактирования, LiDARCrafter может повысить эффективность в процессе разработки и тестирования систем, основанных на LiDAR.
## Выводы
Основным достижением является разработка LiDARCrafter — пер
Abstract
While generative world models have advanced video and occupancy-based data
synthesis, LiDAR generation remains underexplored despite its importance for
accurate 3D perception. Extending generation to 4D LiDAR data introduces
challenges in controllability, temporal stability, and evaluation. We present
LiDARCrafter, a unified framework that converts free-form language into
editable LiDAR sequences. Instructions are parsed into ego-centric scene
graphs, which a tri-branch diffusion model transforms into object layouts,
trajectories, and shapes. A range-image diffusion model generates the initial
scan, and an autoregressive module extends it into a temporally coherent
sequence. The explicit layout design further supports object-level editing,
such as insertion or relocation. To enable fair assessment, we provide
EvalSuite, a benchmark spanning scene-, object-, and sequence-level metrics. On
nuScenes, LiDARCrafter achieves state-of-the-art fidelity, controllability, and
temporal consistency, offering a foundation for LiDAR-based simulation and data
augmentation.
Ссылки и действия
Дополнительные ресурсы: