SkeNa: Learning to Navigate Unseen Environments Based on Abstract Hand-Drawn Maps
2508.03053v1
cs.RO, cs.AI
2025-08-09
Авторы:
Haojun Xu, Jiaqi Xiang, Wu Wei, Jinyu Chen, Linqing Zhong, Linjiang Huang, Hongyu Yang, Si Liu
Резюме на русском
Данная работа затрагивает задачу визуальной навигации в незнакомых окружениях, основываясь на руководстве в виде руконачливых схем. Исследование вводит SkeNa (Sketch-based Navigation), задачу, где агент должен достичь цели в незнакомой среде, ориентируясь только на руководство в виде руконачливых рисунков. Для этой цели представлена большой датасет SoR, содержащий 54k пар траекторий и руконачливых схем, собранных из 71 индорных сцен. Для автоматизации генерации руконачливых схем разработана специальная автоматизированная система. Разработанный платформу SkeNavigator, которая учитывает соотношение руконачливых схем и динамических визуальных наблюдений, показала улучшение показателей SPL на высоко-абстрактной валидационной выборке на 105% по сравнению с предыдущими решениями. Это указывает на перспективу использования руконачливых схем для визуальной навигации в незнакомых пространствах.
Abstract
A typical human strategy for giving navigation guidance is to sketch route
maps based on the environmental layout. Inspired by this, we introduce Sketch
map-based visual Navigation (SkeNa), an embodied navigation task in which an
agent must reach a goal in an unseen environment using only a hand-drawn sketch
map as guidance. To support research for SkeNa, we present a large-scale
dataset named SoR, comprising 54k trajectory and sketch map pairs across 71
indoor scenes. In SoR, we introduce two navigation validation sets with varying
levels of abstraction in hand-drawn sketches, categorized based on their
preservation of spatial scales in the environment, to facilitate future
research. To construct SoR, we develop an automated sketch-generation pipeline
that efficiently converts floor plans into hand-drawn representations. To solve
SkeNa, we propose SkeNavigator, a navigation framework that aligns visual
observations with hand-drawn maps to estimate navigation targets. It employs a
Ray-based Map Descriptor (RMD) to enhance sketch map valid feature
representation using equidistant sampling points and boundary distances. To
improve alignment with visual observations, a Dual-Map Aligned Goal Predictor
(DAGP) leverages the correspondence between sketch map features and on-site
constructed exploration map features to predict goal position and guide
navigation. SkeNavigator outperforms prior floor plan navigation methods by a
large margin, improving SPL on the high-abstract validation set by 105%
relatively. Our code and dataset will be released.
Ссылки и действия
Дополнительные ресурсы: