B4DL: A Benchmark for 4D LiDAR LLM in Spatio-Temporal Understanding
2508.05269v1
cs.CV
2025-08-09
Авторы:
Changho Choi, Youngwoo Shin, Gyojin Han, Dong-Jae Lee, Junmo Kim
Резюме на русском
4D LiDAR позволяет тщательно описывать динамические внешние среды, но до сих пор недостаточно использовался в контексте мультимодальных больших языковых моделей (MLLM) из-за отсутствия качественных аннотаций и соответствующих архитектур. Мы предлагаем B4DL — прототипный бенчмарк для обучения и оценки MLLM в области 4D LiDAR. Бенчмарк включает в себя высококачественные 4D LiDAR-данные, сгенерированные с помощью нашей простой и эффективной пайплайн-архитектуры. Мы также предлагаем новую модель MLLM, которая способна непосредственно обрабатывать 4D LiDAR, объединяя пространственно-временную рассуждения с языковым пониманием. Наши результаты показывают, что B4DL и наша модель предлагают решение для рассуждений в динамичных средах, объединяя силу 4D LiDAR и мощи MLLM.
Abstract
Understanding dynamic outdoor environments requires capturing complex object
interactions and their evolution over time. LiDAR-based 4D point clouds provide
precise spatial geometry and rich temporal cues, making them ideal for
representing real-world scenes. However, despite their potential, 4D LiDAR
remains underexplored in the context of Multimodal Large Language Models
(MLLMs) due to the absence of high-quality, modality-specific annotations and
the lack of MLLM architectures capable of processing its high-dimensional
composition. To address these challenges, we introduce B4DL, a new benchmark
specifically designed for training and evaluating MLLMs on 4D LiDAR
understanding. In addition, we propose a scalable data generation pipeline and
an MLLM model that, for the first time, directly processes raw 4D LiDAR by
bridging it with language understanding. Combined with our dataset and
benchmark, our model offers a unified solution for spatio-temporal reasoning in
dynamic outdoor environments. We provide rendered 4D LiDAR videos, generated
dataset, and inference outputs on diverse scenarios at:
https://mmb4dl.github.io/mmb4dl/
Ссылки и действия
Дополнительные ресурсы: