DynaNav: Dynamic Feature and Layer Selection for Efficient Visual Navigation

2509.21930v1 cs.CV, cs.RO 2025-09-30

Авторы:

Jiahui Wang, Changhao Chen

Резюме на русском

## Контекст Visual navigation является ключевым заданием в области робототехники и embodied AI. Оно позволяет системам визуально изучать и взаимодействовать с окружающим миром. Несмотря на прогресс в области фундаментальных моделей, таких как transformer-based decoders, эти модели сталкиваются с значительными проблемами. Они требуют высокого вычислительного затрат и имеют ограниченную интерпретируемость, что ставит под сомнение их применение в сценариях с ограниченными ресурсами, таких как мобильные роботы в реальном времени. DynaNav предлагает решение, сфокусировавшись на эффективности и понимании результатов. ## Метод DynaNav является динамическим фреймворком для визуальной навигации, который адаптирует выбор функций и слоев в зависимости от сложности сцены. Основной компонент — trainable hard feature selector, работающий на основе спарсных операций, чтобы уменьшить вычислительные затраты. Для улучшения интерпретируемости внедрена механизм выхода задолго до конца вычислений (early-exit), где Bayesian Optimization определяет оптимальные пороги для выхода. Это динамическое решение эффективности позволяет значительно сократить объем вычислительных операций и повысить прозрачность решения. ## Результаты DynaNav протестирован на наборах данных, основанных на реальном мире и симуляционных средах. На основе результатов экспериментов, DynaNav показал существенную эффективность. Он достиг 2.26x уменьшения FLOPs, 42.3% более низкой скорости выполнения инференса и 32.8% более низкого потребления памяти, в сравнении с ViNT. В то же время, DynaNav показал улучшение показателей навигационной производительности на четырех открытых наборах данных. Эти результаты подтверждают высокую эффективность DynaNav в реальных и симуляционных сценариях. ## Значимость DynaNav широко может применяться в различных областях, включая мобильные роботы, embodied AI, и визуальный поиск. Он обеспечивает высокую эффективность, снижает нагрузку на ресурсы и повышает интерпретируемость решений. Эти преимущества делают DynaNav привлекательным для разработки систем, которым необходимо быстро реагировать в реальном времени, при этом сохраняя высокую точность. ## Выводы В результате, DynaNav представляет собой прорыв в области эффективных систем визуальной навигации. Он эффективно адаптирует выбор функций и слоев в зависимости от сложности сцены, реализуя динамическую оптимизацию и интерпретируемость. Будущие исследования будут сфокусированы на расширении функциональных возможностей DynaNav и его применении в реальных мировых задачах.

Abstract

Visual navigation is essential for robotics and embodied AI. However, existing foundation models, particularly those with transformer decoders, suffer from high computational overhead and lack interpretability, limiting their deployment in resource-tight scenarios. To address this, we propose DynaNav, a Dynamic Visual Navigation framework that adapts feature and layer selection based on scene complexity. It employs a trainable hard feature selector for sparse operations, enhancing efficiency and interpretability. Additionally, we integrate feature selection into an early-exit mechanism, with Bayesian Optimization determining optimal exit thresholds to reduce computational cost. Extensive experiments in real-world-based datasets and simulated environments demonstrate the effectiveness of DynaNav. Compared to ViNT, DynaNav achieves a 2.26x reduction in FLOPs, 42.3% lower inference time, and 32.8% lower memory usage, while improving navigation performance across four public datasets.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

DynaNav: Dynamic Feature and Layer Selection for Efficient Visual Navigation

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

FASTer: Toward Efficient Autoregressive Vision Language Action Modeling via neur...

Object Reconstruction under Occlusion with Generative Priors and Contact-induced...

Image Generation as a Visual Planner for Robotic Manipulation

TrajDiff: End-to-end Autonomous Driving without Perception Annotation

SwiftVLA: Unlocking Spatiotemporal Dynamics for Lightweight VLA Models at Minima...

Навигация