Harnessing Input-Adaptive Inference for Efficient VLN

2508.09262v1 cs.CV, cs.LG 2025-08-15
Авторы:

Dongwoo Kang, Akhil Perincherry, Zachary Coalson, Aiden Gabriel, Stefan Lee, Sanghyun Hong

Резюме на русском

## Контекст **Вид-и-язык-навигация (VLN)** — это устойчиво развивающаяся область исследований, основывающаяся на использовании трансформеров для обработки визуальных и языковых сигналов. На данный момент, существуют модели, учитывающие историю действий и наблюдений, что позволяет роботу динамично адаптироваться во время пребывания в среде. Однако, эти модели часто являются ресурсоемкими, что негативно сказывается на их применении в реальных условиях с ограниченными вычислительными ресурсами. Целью нашего исследования является улучшение эффективности VLN-моделей без существенного снижения их производительности. ## Метод Мы предлагаем **input-adaptive navigation**, которая применяется на разных уровнях модели. 1) Для **снижения пространственных нагрузок**, мы применяем селективную обработку панорамных видов, обрабатывая только те, которые необходимы для понимания инструкции. 2) Для **улучшения внутренней модели**, предлагается **оптимизированная схема early-exit**, которая определяет момент выхода модели при достижении определенного уровня достоверности. 3) Для **уменьшения временных затрат**, мы вводим механизм кэширования, позволяющий избежать повторной обработки уже обработанных видов. Эти алгоритмы позволяют эффективно применять модели VLN в реальных условиях без существенных потерь в производительности. ## Результаты Мы проводили эксперименты на семь VLN-бенчмарков, включая стандартные и непрерывные среды. Использовались три различных офф-салф-агента. Мы показали, что наша методика позволяет уменьшить вычислительные затраты до двух раз в сравнении с базовыми агентами, сохранив высокую точность. Эти результаты доказывают эффективность нашего подхода в реальных условиях. ## Значимость Наш подход может быть применен в различных машинным зрению и языковым задачам, где необходима эффективность вычислений. Он позволяет экономить ресурсы, снижать задержки и улучшить применение моделей VLN в устройствах с ограниченными вычислительными ресурсами, таких как роботы, умные дома и автомобили. Это открывает новые возможности для эффективного использования технологий VLN в широком круге приложений. ## Выводы Мы представили фреймворм input-adaptive navigation, который увеличивает эффективность VLN-моделей на семи бенчмарках. Наши результаты показали, что модели могут быть эффективно использованы в реальных условиях без существенных потерь в производительности. Будущие исследования будут направлены на дальнейшее улучшение адаптивных методов и их применение в различных сценариях.

Abstract

An emerging paradigm in vision-and-language navigation (VLN) is the use of history-aware multi-modal transformer models. Given a language instruction, these models process observation and navigation history to predict the most appropriate action for an agent. While they have significantly improved performance, the scale of these models can be a bottleneck in practical settings with limited computational resources. In this work, we propose a novel input-adaptive navigation method to enhance VLN model efficiency. We first show that existing input-adaptive mechanisms fail to reduce computations without substantial performance degradation. To address this, we introduce three adaptive algorithms, each deployed at a different level: (1) To improve spatial efficiency, we selectively process panoramic views at each observation of an agent. (2) To improve intra-model efficiency, we propose importance-based adaptive thresholding for the early-exit methods. (3) To improve temporal efficiency, we implement a caching mechanism that prevents reprocessing of views previously seen by the agent. In evaluations on seven VLN benchmarks, we demonstrate over a 2$\times$ reduction in computation across three off-the-shelf agents in both standard and continuous environments. Our code is publicly available at https://github.com/secure-ai-systems-group/adaptive-vision-and-language-navigation.

Ссылки и действия