OmniVLA: An Omni-Modal Vision-Language-Action Model for Robot Navigation
2509.19480v1
cs.RO, cs.LG
2025-09-26
Авторы:
Noriaki Hirose, Catherine Glossop, Dhruv Shah, Sergey Levine
Резюме на русском
#### Контекст
Построение надежных систем для навигации роботов является ключевым заданием в области автоматизации и робототехники. Одним из основных трудностей является то, что роботы должны интерпретировать различные типы входных данных, таких как естественноязыковые инструкции, эгеоцентрические изображения и координаты в пространстве, чтобы безопасно и эффективно перемещаться в различных средах. Существующие подходы часто ограничиваются одной модальностью ввода, что приводит к ограниченной гибкости и плохой общности в решении разнообразных проблем навигации. Наша мотивация заключается в развитии одной модели, которая могла бы обрабатывать различные модальности и гибко реагировать на новые потребности.
#### Метод
Мы предлагаем представление целей навигации, которое объединяет несколько модальностей в одном фреймворке. Наша модель, OmniVLA, основана на глубокой архитектуре Vision-Language-Action (VLA), которая объединяет в себе возможности обработки изображений, естественного языка и координатных данных. Мы используем стратегию случайной слияния модальностей, чтобы обучить модель к устойчивости в работе с различными видами входных данных. Эта модель выполняет различные задачи навигации, используя синергетические представления из нескольких модальностей, что увеличивает её гибкость и точность.
#### Результаты
Мы проверяли OmniVLA на нескольких тестовых средах, где робот должен был выполнить задачи навигации на основе различных модальных входных данных. Модель показала высокую точность и устойчивость в ситуациях, когда одна или несколько модальностей отсутствовали. Например, модель могла выполнять задачи по инструкциям на естественном языке, даже в ситуациях, когда изображения и координаты были недоступны. Она также показала значительное улучшение в сравнении с существующими моделями, которые оперировали только одной модальностью.
#### Значимость
OmniVLA может применяться в различных сценариях, таких как автономная доставка, домашняя автоматизация и промышленная робототехника. Её гибкость и общность позволяют использовать одну модель для множества различных задач, что экономит ресурсы на обучении и конфигурации. Одним из основных преимуществ является возможность расширения модели для новых модальностей и задач, что делает её привлекательной для развития систем, которые требуют высокой гибкости и подстройки под конкретные задачи.
#### Выводы
Мы представили OmniVLA, модель, которая объединяет в себе несколько модальностей для навигации роботов. Она обеспечивает улучшенную общность, гибкость и устойчивость в сравнении с существующими подходами. Наша работа
Abstract
Humans can flexibly interpret and compose different goal specifications, such
as language instructions, spatial coordinates, or visual references, when
navigating to a destination. In contrast, most existing robotic navigation
policies are trained on a single modality, limiting their adaptability to
real-world scenarios where different forms of goal specification are natural
and complementary. In this work, we present a training framework for robotic
foundation models that enables omni-modal goal conditioning for vision-based
navigation. Our approach leverages a high-capacity vision-language-action (VLA)
backbone and trains with three primary goal modalities: 2D poses, egocentric
images, and natural language, as well as their combinations, through a
randomized modality fusion strategy. This design not only expands the pool of
usable datasets but also encourages the policy to develop richer geometric,
semantic, and visual representations. The resulting model, OmniVLA, achieves
strong generalization to unseen environments, robustness to scarce modalities,
and the ability to follow novel natural language instructions. We demonstrate
that OmniVLA outperforms specialist baselines across modalities and offers a
flexible foundation for fine-tuning to new modalities and tasks. We believe
OmniVLA provides a step toward broadly generalizable and flexible navigation
policies, and a scalable path for building omni-modal robotic foundation
models. We present videos showcasing OmniVLA performance and will release its
checkpoints and training code on our project page.
Ссылки и действия
Дополнительные ресурсы: