SLAM-Former: Putting SLAM into One Transformer

2509.16909v1 cs.CV, cs.RO 2025-09-24
Авторы:

Yijun Yuan, Zhuoguang Chen, Kenan Li, Weibang Wang, Hang Zhao

Резюме на русском

## Контекст Информационные системы SLAM (Simultaneous Localization and Mapping) широко используются в полевых роботах, видеосъемке, виртуальной реальности и т. д. Они решают задачи ориентирования и построения карты окружающей среды в реальном времени. Однако существующие системы SLAM часто требуют затратных вычислительных ресурсов и фрагментаричных решений. Это связано с использованием независимых модулей для различных задач, таких как локализация, отображение и рефинейм. Существует необходимость в разработке более эффективных, гнучких и универсальных систем, которые могут объединить все эти задачи в единое решение. ## Метод SLAM-Former представляет собой новый подход, который интегрирует все функции SLAM в одну нейронную сеть. Он состоит из двух основных компонентов: фронтенда и беккенда. Фронтенд обрабатывает последовательные монокурсные изображения в реальном времени для построения карты и трекинга объектов. Беккенд выполняет глобальный рефинейм для обеспечения точности и геометрической консистентности результатов. Этот итеративный подход позволяет фронтенду и беккенду одновременно повышать качество работы друг друга. Архитектура основана на трансформерах, что позволяет обрабатывать данные в реальном времени и обеспечивать высокую скорость вычислений. ## Результаты Исследования проводились на широко известных наборах данных, таких как KITTI и Replica. Оценки производительности проводились по таким критериям, как точность локализации, качество карты и скорость выполнения. SLAM-Former показал существенное улучшение по сравнению с другими современными методами. Например, в тестах на KITTI он показал более высокую точность локализации и качество карты, уступив только в скорости выполнения. В Replica, где требуется высокая частота обновлений, SLAM-Former также демонстрировал значительное преимущество в скорости и точности. ## Значимость SLAM-Former может быть применен в различных областях, таких как виртуальная и дополненная реальность, автоматизированная система управления транспортом, мониторинг и охрана. Он обеспечивает высокую скорость и точность, что делает его привлекательным для реализации в реальном времени. Кроме того, единое нейронное решение упрощает процесс разработки и модернизации систем SLAM, уменьшая требования к ресурсам и улучшая их надежность. ## Выводы SLAM-Former представляет собой перспективный подход к объединению всех функций SLAM в одну нейронную сеть. Он демонстрирует высокую эффективность и гибкость, превосходя современные методы по многим критериям. Будущие исследования будут сфокусированы на улучшении скорости выполнения и снижении ресурсоемкости, а такж

Abstract

We present SLAM-Former, a novel neural approach that integrates full SLAM capabilities into a single transformer. Similar to traditional SLAM systems, SLAM-Former comprises both a frontend and a backend that operate in tandem. The frontend processes sequential monocular images in real-time for incremental mapping and tracking, while the backend performs global refinement to ensure a geometrically consistent result. This alternating execution allows the frontend and backend to mutually promote one another, enhancing overall system performance. Comprehensive experimental results demonstrate that SLAM-Former achieves superior or highly competitive performance compared to state-of-the-art dense SLAM methods.

Ссылки и действия