SkeNa: Learning to Navigate Unseen Environments Based on Abstract Hand-Drawn Maps

2508.03053v1 cs.RO, cs.AI 2025-08-09
Авторы:

Haojun Xu, Jiaqi Xiang, Wu Wei, Jinyu Chen, Linqing Zhong, Linjiang Huang, Hongyu Yang, Si Liu

Резюме на русском

Данная работа затрагивает задачу визуальной навигации в незнакомых окружениях, основываясь на руководстве в виде руконачливых схем. Исследование вводит SkeNa (Sketch-based Navigation), задачу, где агент должен достичь цели в незнакомой среде, ориентируясь только на руководство в виде руконачливых рисунков. Для этой цели представлена большой датасет SoR, содержащий 54k пар траекторий и руконачливых схем, собранных из 71 индорных сцен. Для автоматизации генерации руконачливых схем разработана специальная автоматизированная система. Разработанный платформу SkeNavigator, которая учитывает соотношение руконачливых схем и динамических визуальных наблюдений, показала улучшение показателей SPL на высоко-абстрактной валидационной выборке на 105% по сравнению с предыдущими решениями. Это указывает на перспективу использования руконачливых схем для визуальной навигации в незнакомых пространствах.

Abstract

A typical human strategy for giving navigation guidance is to sketch route maps based on the environmental layout. Inspired by this, we introduce Sketch map-based visual Navigation (SkeNa), an embodied navigation task in which an agent must reach a goal in an unseen environment using only a hand-drawn sketch map as guidance. To support research for SkeNa, we present a large-scale dataset named SoR, comprising 54k trajectory and sketch map pairs across 71 indoor scenes. In SoR, we introduce two navigation validation sets with varying levels of abstraction in hand-drawn sketches, categorized based on their preservation of spatial scales in the environment, to facilitate future research. To construct SoR, we develop an automated sketch-generation pipeline that efficiently converts floor plans into hand-drawn representations. To solve SkeNa, we propose SkeNavigator, a navigation framework that aligns visual observations with hand-drawn maps to estimate navigation targets. It employs a Ray-based Map Descriptor (RMD) to enhance sketch map valid feature representation using equidistant sampling points and boundary distances. To improve alignment with visual observations, a Dual-Map Aligned Goal Predictor (DAGP) leverages the correspondence between sketch map features and on-site constructed exploration map features to predict goal position and guide navigation. SkeNavigator outperforms prior floor plan navigation methods by a large margin, improving SPL on the high-abstract validation set by 105% relatively. Our code and dataset will be released.

Ссылки и действия