Harnessing Input-Adaptive Inference for Efficient VLN
2508.09262v1
cs.CV, cs.LG
2025-08-15
Авторы:
Dongwoo Kang, Akhil Perincherry, Zachary Coalson, Aiden Gabriel, Stefan Lee, Sanghyun Hong
Резюме на русском
## Контекст
**Вид-и-язык-навигация (VLN)** — это устойчиво развивающаяся область исследований, основывающаяся на использовании трансформеров для обработки визуальных и языковых сигналов. На данный момент, существуют модели, учитывающие историю действий и наблюдений, что позволяет роботу динамично адаптироваться во время пребывания в среде. Однако, эти модели часто являются ресурсоемкими, что негативно сказывается на их применении в реальных условиях с ограниченными вычислительными ресурсами. Целью нашего исследования является улучшение эффективности VLN-моделей без существенного снижения их производительности.
## Метод
Мы предлагаем **input-adaptive navigation**, которая применяется на разных уровнях модели. 1) Для **снижения пространственных нагрузок**, мы применяем селективную обработку панорамных видов, обрабатывая только те, которые необходимы для понимания инструкции. 2) Для **улучшения внутренней модели**, предлагается **оптимизированная схема early-exit**, которая определяет момент выхода модели при достижении определенного уровня достоверности. 3) Для **уменьшения временных затрат**, мы вводим механизм кэширования, позволяющий избежать повторной обработки уже обработанных видов. Эти алгоритмы позволяют эффективно применять модели VLN в реальных условиях без существенных потерь в производительности.
## Результаты
Мы проводили эксперименты на семь VLN-бенчмарков, включая стандартные и непрерывные среды. Использовались три различных офф-салф-агента. Мы показали, что наша методика позволяет уменьшить вычислительные затраты до двух раз в сравнении с базовыми агентами, сохранив высокую точность. Эти результаты доказывают эффективность нашего подхода в реальных условиях.
## Значимость
Наш подход может быть применен в различных машинным зрению и языковым задачам, где необходима эффективность вычислений. Он позволяет экономить ресурсы, снижать задержки и улучшить применение моделей VLN в устройствах с ограниченными вычислительными ресурсами, таких как роботы, умные дома и автомобили. Это открывает новые возможности для эффективного использования технологий VLN в широком круге приложений.
## Выводы
Мы представили фреймворм input-adaptive navigation, который увеличивает эффективность VLN-моделей на семи бенчмарках. Наши результаты показали, что модели могут быть эффективно использованы в реальных условиях без существенных потерь в производительности. Будущие исследования будут направлены на дальнейшее улучшение адаптивных методов и их применение в различных сценариях.
Abstract
An emerging paradigm in vision-and-language navigation (VLN) is the use of
history-aware multi-modal transformer models. Given a language instruction,
these models process observation and navigation history to predict the most
appropriate action for an agent. While they have significantly improved
performance, the scale of these models can be a bottleneck in practical
settings with limited computational resources. In this work, we propose a novel
input-adaptive navigation method to enhance VLN model efficiency. We first show
that existing input-adaptive mechanisms fail to reduce computations without
substantial performance degradation. To address this, we introduce three
adaptive algorithms, each deployed at a different level: (1) To improve spatial
efficiency, we selectively process panoramic views at each observation of an
agent. (2) To improve intra-model efficiency, we propose importance-based
adaptive thresholding for the early-exit methods. (3) To improve temporal
efficiency, we implement a caching mechanism that prevents reprocessing of
views previously seen by the agent. In evaluations on seven VLN benchmarks, we
demonstrate over a 2$\times$ reduction in computation across three
off-the-shelf agents in both standard and continuous environments. Our code is
publicly available at
https://github.com/secure-ai-systems-group/adaptive-vision-and-language-navigation.
Ссылки и действия
Дополнительные ресурсы: