MASt3R-Fusion: Integrating Feed-Forward Visual Model with IMU, GNSS for High-Functionality SLAM
2509.20757v2
cs.RO, cs.CV
2025-09-30
Авторы:
Yuxuan Zhou, Xingxing Li, Shengyu Li, Zhuohao Yan, Chunxi Xia, Shaoquan Feng
Резюме на русском
## Контекст
Визуальная SLAM (Simultaneous Localization and Mapping) является ключевым методом в проектировании роботов, транспортных систем с автономным управлением и расширенной реальности (XR). Однако классические системы визуальной SLAM часто сталкиваются с проблемами, такими как неэффективность в низкотекстурных средах, амбигуитуды масштаба и ухудшение работы в трудных условиях визуального восприятия. Недавние разработки, основанные на функциональных моделях глубокого обучения, показали потенциал в повышении точности регрессии точечных карт в 3D-пространстве, используя специально обученные пространственные предпосылки. Несмотря на это, многие из этих моделей лишаются потенциала применения многомодульной информационной функциональности, которая широко обоснована в классических подходах SLAM.
## Метод
MASt3R-Fusion представляет собой инновационный подход к визуальной SLAM, который сочетает в себе функциональные модели глубокого обучения с многомодульным сенсорным вводом. Основной компонент — глубокая точечная регрессия, интегрируемая с инерциальными входами и GNSS-данными. Для эффективной информационной фускионации вводится новый метод Sim(3)-based visual alignment constraints, который работает в гессианской форме. Факторная графовая архитектура разработана таким образом, чтобы поддерживать оптимизацию в реальном времени с помощью вспомогательного слайдинг-окна, а также глобальную оптимизацию с агрессивными зонациями луков. Это позволяет добиться реального времени для позиционирования, величинных оценок и консистентных структурных карт.
## Результаты
На основе известных бенчмарков и самостоятельно собранных данных, мы проверили эффективность MASt3R-Fusion. Замеры показали существенное улучшение точности и надежности в сравнении с традиционными визуально-сенсорными SLAM-системами. Мы также демонстрируем, что наша программа может эффективно работать в трудных условиях визуального восприятия, таких как низкотекстурные среды и разные масштабные амбигуитеты.
## Значимость
MASt3R-Fusion может применяться в различных областях, включая робототехнику, самоуправляемые транспортные системы и XR. Он обеспечивает значительные преимущества, такие как улучшенная точность, эффективность в низкотекстурных средах и глобальная консистентность карт. Его потенциал включает в себя улучшение производительности в сложных средах и открытие новых возможностей в приложениях, требующих высокого качества SLAM.
## Выводы
MASt3R-Fusion устанавливает новый стандарт для визуальных SLAM-систем, сочетая выгоды глубокого обучения с
Abstract
Visual SLAM is a cornerstone technique in robotics, autonomous driving and
extended reality (XR), yet classical systems often struggle with low-texture
environments, scale ambiguity, and degraded performance under challenging
visual conditions. Recent advancements in feed-forward neural network-based
pointmap regression have demonstrated the potential to recover high-fidelity 3D
scene geometry directly from images, leveraging learned spatial priors to
overcome limitations of traditional multi-view geometry methods. However, the
widely validated advantages of probabilistic multi-sensor information fusion
are often discarded in these pipelines. In this work, we propose
MASt3R-Fusion,a multi-sensor-assisted visual SLAM framework that tightly
integrates feed-forward pointmap regression with complementary sensor
information, including inertial measurements and GNSS data. The system
introduces Sim(3)-based visualalignment constraints (in the Hessian form) into
a universal metric-scale SE(3) factor graph for effective information fusion. A
hierarchical factor graph design is developed, which allows both real-time
sliding-window optimization and global optimization with aggressive loop
closures, enabling real-time pose tracking, metric-scale structure perception
and globally consistent mapping. We evaluate our approach on both public
benchmarks and self-collected datasets, demonstrating substantial improvements
in accuracy and robustness over existing visual-centered multi-sensor SLAM
systems. The code will be released open-source to support reproducibility and
further research (https://github.com/GREAT-WHU/MASt3R-Fusion).
Ссылки и действия
Дополнительные ресурсы: