MASt3R-Fusion: Integrating Feed-Forward Visual Model with IMU, GNSS for High-Functionality SLAM
2509.20757v1
cs.RO, cs.CV
2025-09-27
Авторы:
Yuxuan Zhou, Xingxing Li, Shengyu Li, Zhuohao Yan, Chunxi Xia, Shaoquan Feng
Резюме на русском
## Контекст
Область виртуальной, аugmented и mixed reality (XR), а также автоматическое управление транспортом, требуют высокоточных систем визуального SLAM (Simultaneous Localization and Mapping). Традиционные методы визуального SLAM часто сталкиваются с проблемами, такими как неэффективность в низкотекстурных средах, амбигуитет текстур и нестабильность в сложных условиях. Нейросетевые модели, основанные на фидфорвардных архитектурах, показали способность регрессии точечных карт, преодолевая ограничения классических методов. Однако информационная фьюзия, основанная на мультисенсорном подходе, часто отвергается в этих системах. Наша мотивация заключается в разработке системы, которая существенно улучшает точность и надежность SLAM-систем, используя синергетические преимущества визуальной регрессии и мультисенсорной информации.
## Метод
Мы предлагаем MASt3R-Fusion, совмещающую нейросетевую точечную регрессию с информационной фьюзией мультисенсоров. Проект основан на факторной графической архитектуре SE(3) с универсальным метрическим масштабом. В ней внедрены Sim(3)-based visual alignment constraints в Hessian-like форме для эффективной информационной фьюзии. Для реализации эффективного реального времени и масштабируемой оптимизации разработана иерархическая структура графа. Мы также внедрили поддержку реального времени для оптимизации слайдингового окна и многошаговой оптимизации с большим шагом. Эта архитектура позволяет обеспечить реальное времени локализации, построение метрической трёхмерной структуры и консистентную карту.
## Результаты
Мы проверили нашу систему на существующих бенчмарках и самостоятельно собранных данных. Результаты показали значительные улучшения в точности и надежности по сравнению с традиционными методами визуального SLAM. В частности, мы продемонстрировали улучшение в локализации, точности оценки масштаба и консистентности карты. Эти результаты достигнуты благодаря уникальному интеграционному подходу, который объединяет в себе точечную регрессию и мультисенсорное слияние.
## Значимость
Наша система может быть применена в сферах XR, робототехники и автоматизированного управления транспортом. Она обеспечивает высокую точность и надежность в сложных условиях, что делает её привлекательной для реализации в сложных приложениях. Мы также открыли возможность дальнейшего исследования, выпустив код нашей системы в открытый доступ, что позволит другим исследователям расширять и улучшать нашу работу.
## Выводы
Мы представили MASt3R-Fusion, нововведя и
Abstract
Visual SLAM is a cornerstone technique in robotics, autonomous driving and
extended reality (XR), yet classical systems often struggle with low-texture
environments, scale ambiguity, and degraded performance under challenging
visual conditions. Recent advancements in feed-forward neural network-based
pointmap regression have demonstrated the potential to recover high-fidelity 3D
scene geometry directly from images, leveraging learned spatial priors to
overcome limitations of traditional multi-view geometry methods. However, the
widely validated advantages of probabilistic multi-sensor information fusion
are often discarded in these pipelines. In this work, we propose
MASt3R-Fusion,a multi-sensor-assisted visual SLAM framework that tightly
integrates feed-forward pointmap regression with complementary sensor
information, including inertial measurements and GNSS data. The system
introduces Sim(3)-based visualalignment constraints (in the Hessian form) into
a universal metric-scale SE(3) factor graph for effective information fusion. A
hierarchical factor graph design is developed, which allows both real-time
sliding-window optimization and global optimization with aggressive loop
closures, enabling real-time pose tracking, metric-scale structure perception
and globally consistent mapping. We evaluate our approach on both public
benchmarks and self-collected datasets, demonstrating substantial improvements
in accuracy and robustness over existing visual-centered multi-sensor SLAM
systems. The code will be released open-source to support reproducibility and
further research (https://github.com/GREAT-WHU/MASt3R-Fusion).
Ссылки и действия
Дополнительные ресурсы: