LiDAR-BIND-T: Improving SLAM with Temporally Consistent Cross-Modal LiDAR Reconstruction
2509.05728v1
cs.CV, cs.AI, cs.LG, cs.RO
2025-09-10
Авторы:
Niels Balemans, Ali Anwar, Jan Steckel, Siegfried Mercelis
Резюме на русском
## Контекст
Одна из основных задач в поле автоматизированного вождения и робототехники заключается в обеспечении надежной и точной картографирования окружающей среды. Несмотря на то, что технологии LiDAR (Light Detection and Ranging) широко используются для построения точных трехмерных моделей окружающих объектов, они часто сталкиваются с ограничениями в характеристиках качества и стоимости. Другие сенсоры, такие как радары и системы синтезу аудиосигналов (sonar), могут предоставить дополнительные данные, но их интеграция с LiDAR часто сталкивается с проблемами временной неконсистентности и неточностью. Целью данной работы является расширение существующей multmodal fusion framework, LiDAR-BIND, для улучшения временной консистентности и качества реконструкции.
## Метод
LiDAR-BIND-T расширяет LiDAR-BIND, добавив новые механизмы для принудительной временной консистентности. Эти механизмы включают: (i) **temporal embedding similarity**, который выравнивает последовательные тензоры в латентном пространстве LiDAR, (ii) **motion-aligned transformation loss**, который синхронизирует движение между предсказанными и реальными LiDAR-данными, и (iii) **windowed temporal fusion**, основанную на специальном модуле для объединения данных в определенных временных окнах. Также была обновлена архитектура модели для лучшего сохранения пространственной структуры. Эти улучшения позволяют LiDAR-BIND-T сохранять модульность и гибкость в интеграции различных сенсоров, при этом значительно повышая точность и надежность результатов.
## Результаты
Использовав определенные данные с радарами и sonar, авторы проводили эксперименты для сравнения новой модели с исходной версией LiDAR-BIND. Оценка производилась с помощью различных метрик, включая **Absolute Trajectory Error (ATE)** и **Occupancy Map Accuracy**. Результаты показали, что LiDAR-BIND-T обеспечивает значительное улучшение временной и пространственной консистентности. Например, она снизила Absolute Trajectory Error в дорожных сценариях, улучшила точность построения карты окружающей области в Cartographer-based SLAM. Для оценки качества временной консистентности также были предложены новые метрики, например, Fréchet Video Motion Distance (FVMD) и correlation-peak distance, которые дают более точные показатели временного качества.
## Значимость
LiDAR-BIND-T может применяться в различных областях, включая автоматизированное вождение, робототехнику и виртуальную реальность. Она предлагает преимущества в своей модульной структуре, которая позволяет легко интегрировать различные типы сенсоров. Более того, усовершенствованная модель обеспечивает лучшую точность и надежность в задачах SLAM (Simultaneous Localization and Mapping), что может существенно повысить производительность в системах автоматизированного управления. Эти достижения открывают путь к более
Abstract
This paper extends LiDAR-BIND, a modular multi-modal fusion framework that
binds heterogeneous sensors (radar, sonar) to a LiDAR-defined latent space,
with mechanisms that explicitly enforce temporal consistency. We introduce
three contributions: (i) temporal embedding similarity that aligns consecutive
latents, (ii) a motion-aligned transformation loss that matches displacement
between predictions and ground truth LiDAR, and (iii) windows temporal fusion
using a specialised temporal module. We further update the model architecture
to better preserve spatial structure. Evaluations on radar/sonar-to-LiDAR
translation demonstrate improved temporal and spatial coherence, yielding lower
absolute trajectory error and better occupancy map accuracy in
Cartographer-based SLAM (Simultaneous Localisation and Mapping). We propose
different metrics based on the Fr\'echet Video Motion Distance (FVMD) and a
correlation-peak distance metric providing practical temporal quality
indicators to evaluate SLAM performance. The proposed temporal LiDAR-BIND, or
LiDAR-BIND-T, maintains plug-and-play modality fusion while substantially
enhancing temporal stability, resulting in improved robustness and performance
for downstream SLAM.