JanusVLN: Decoupling Semantics and Spatiality with Dual Implicit Memory for Vision-Language Navigation
2509.22548v1
cs.CV, cs.RO
2025-09-30
Авторы:
Shuang Zeng, Dekang Qi, Xinyuan Chang, Feng Xiong, Shichao Xie, Xiaolong Wu, Shiyi Liang, Mu Xu, Xing Wei
Резюме на русском
#### Контекст
Vision-and-Language Navigation (VLN) — это задача, в которой эмбодированный агент должен перемещаться по неизвестной среде, ориентируясь на естественный язык и непрерывный видеопоток. Несмотря на то, что новые подходы в VLN существенно улучшили показатели данной задачи, они часто сталкиваются с проблемами, такими как эффективность памяти и качество понимания сцены. Эти проблемы возникают из-за сложности в оптимальном объединении семантического понимания и геометрических представлений. Мы привлекли внимание к идее двустороннего способа восприятия, присутствующего в человеческой навигации, и предлагаем новую модель, которая деконструирует эти аспекты для более эффективного алгоритма.
#### Метод
Мы предлагаем JanusVLN, новую модель VLN, основанную на двух специализированных нейросетевых памятях — spatial-geometric memory и visual-semantic memory. Эти две памяти работают как два независимых модуля, объединенных в единое целое. Spatial-geometric memory сохраняет геометрические свойства пространства, в то время как visual-semantic memory заключает в себе семантические характеристики визуального содержимого. Мы также используем Multimodal Large Language Model (MLLM) для расширения модели с трехмерными знаниями, которые помогают модели лучше ориентироваться в пространстве. Для эффективности вычислений используется алгоритм слайдинг-window, который позволяет постоянно обновлять память, но при этом избегать лишнего расчета.
#### Результаты
Мы провели эксперименты на широко известных данных, таких как Room-to-Room (R2R), Room-for-Room (R4R) и Touchdown, которые показали высокую эффективность JanusVLN. Мы сравнили нашу модель с более чем 20 современными методами, и она показала самые высокие результаты. Например, улучшение успешности на R2R достигло 35.5% при использовании данных типа RGB+Depth в сравнении с другими методами. Наши результаты показали, что модель JanusVLN эффективна даже при ограничении наличия данных, что является ключевым преимуществом в сравнении с другими подходами.
#### Значимость
Мы показали, что JanusVLN не только улучшает существующие рекорды, но и открывает новые возможности в VLN. Модель может применяться в таких областях, как проектирование интерактивных сред и виртуальная реальность. Основное преимущество заключается в том, что она сочетает в себе эффективность в памяти и точность в ориентировании, что делает ее особенно полезной для задач, требующих высокой эффективности.
#### Выводы
Мы достигли значительных улучшений в VLN с помощью модели JanusVLN, которая деконструирует пространственные и семантические задачи. Наша работа открывает путь к будущим исследованиям в об
Abstract
Vision-and-Language Navigation requires an embodied agent to navigate through
unseen environments, guided by natural language instructions and a continuous
video stream. Recent advances in VLN have been driven by the powerful semantic
understanding of Multimodal Large Language Models. However, these methods
typically rely on explicit semantic memory, such as building textual cognitive
maps or storing historical visual frames. This type of method suffers from
spatial information loss, computational redundancy, and memory bloat, which
impede efficient navigation. Inspired by the implicit scene representation in
human navigation, analogous to the left brain's semantic understanding and the
right brain's spatial cognition, we propose JanusVLN, a novel VLN framework
featuring a dual implicit neural memory that models spatial-geometric and
visual-semantic memory as separate, compact, and fixed-size neural
representations. This framework first extends the MLLM to incorporate 3D prior
knowledge from the spatial-geometric encoder, thereby enhancing the spatial
reasoning capabilities of models based solely on RGB input. Then, the
historical key-value caches from the spatial-geometric and visual-semantic
encoders are constructed into a dual implicit memory. By retaining only the KVs
of tokens in the initial and sliding window, redundant computation is avoided,
enabling efficient incremental updates. Extensive experiments demonstrate that
JanusVLN outperforms over 20 recent methods to achieve SOTA performance. For
example, the success rate improves by 10.5-35.5 compared to methods using
multiple data types as input and by 3.6-10.8 compared to methods using more RGB
training data. This indicates that the proposed dual implicit neural memory, as
a novel paradigm, explores promising new directions for future VLN research.
Ours project page: https://miv-xjtu.github.io/JanusVLN.github.io/.
Ссылки и действия
Дополнительные ресурсы: