OmniVLA: An Omni-Modal Vision-Language-Action Model for Robot Navigation

2509.19480v1 cs.RO, cs.LG 2025-09-26

Авторы:

Noriaki Hirose, Catherine Glossop, Dhruv Shah, Sergey Levine

Резюме на русском

#### Контекст Построение надежных систем для навигации роботов является ключевым заданием в области автоматизации и робототехники. Одним из основных трудностей является то, что роботы должны интерпретировать различные типы входных данных, таких как естественноязыковые инструкции, эгеоцентрические изображения и координаты в пространстве, чтобы безопасно и эффективно перемещаться в различных средах. Существующие подходы часто ограничиваются одной модальностью ввода, что приводит к ограниченной гибкости и плохой общности в решении разнообразных проблем навигации. Наша мотивация заключается в развитии одной модели, которая могла бы обрабатывать различные модальности и гибко реагировать на новые потребности. #### Метод Мы предлагаем представление целей навигации, которое объединяет несколько модальностей в одном фреймворке. Наша модель, OmniVLA, основана на глубокой архитектуре Vision-Language-Action (VLA), которая объединяет в себе возможности обработки изображений, естественного языка и координатных данных. Мы используем стратегию случайной слияния модальностей, чтобы обучить модель к устойчивости в работе с различными видами входных данных. Эта модель выполняет различные задачи навигации, используя синергетические представления из нескольких модальностей, что увеличивает её гибкость и точность. #### Результаты Мы проверяли OmniVLA на нескольких тестовых средах, где робот должен был выполнить задачи навигации на основе различных модальных входных данных. Модель показала высокую точность и устойчивость в ситуациях, когда одна или несколько модальностей отсутствовали. Например, модель могла выполнять задачи по инструкциям на естественном языке, даже в ситуациях, когда изображения и координаты были недоступны. Она также показала значительное улучшение в сравнении с существующими моделями, которые оперировали только одной модальностью. #### Значимость OmniVLA может применяться в различных сценариях, таких как автономная доставка, домашняя автоматизация и промышленная робототехника. Её гибкость и общность позволяют использовать одну модель для множества различных задач, что экономит ресурсы на обучении и конфигурации. Одним из основных преимуществ является возможность расширения модели для новых модальностей и задач, что делает её привлекательной для развития систем, которые требуют высокой гибкости и подстройки под конкретные задачи. #### Выводы Мы представили OmniVLA, модель, которая объединяет в себе несколько модальностей для навигации роботов. Она обеспечивает улучшенную общность, гибкость и устойчивость в сравнении с существующими подходами. Наша работа

Abstract

Humans can flexibly interpret and compose different goal specifications, such as language instructions, spatial coordinates, or visual references, when navigating to a destination. In contrast, most existing robotic navigation policies are trained on a single modality, limiting their adaptability to real-world scenarios where different forms of goal specification are natural and complementary. In this work, we present a training framework for robotic foundation models that enables omni-modal goal conditioning for vision-based navigation. Our approach leverages a high-capacity vision-language-action (VLA) backbone and trains with three primary goal modalities: 2D poses, egocentric images, and natural language, as well as their combinations, through a randomized modality fusion strategy. This design not only expands the pool of usable datasets but also encourages the policy to develop richer geometric, semantic, and visual representations. The resulting model, OmniVLA, achieves strong generalization to unseen environments, robustness to scarce modalities, and the ability to follow novel natural language instructions. We demonstrate that OmniVLA outperforms specialist baselines across modalities and offers a flexible foundation for fine-tuning to new modalities and tasks. We believe OmniVLA provides a step toward broadly generalizable and flexible navigation policies, and a scalable path for building omni-modal robotic foundation models. We present videos showcasing OmniVLA performance and will release its checkpoints and training code on our project page.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

OmniVLA: An Omni-Modal Vision-Language-Action Model for Robot Navigation

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Cross-embodied Co-design for Dexterous Hands

OmniDexVLG: Learning Dexterous Grasp Generation from Vision Language Model-Guide...

Digital Twin-based Control Co-Design of Full Vehicle Active Suspensions via Deep...

Modality-Augmented Fine-Tuning of Foundation Robot Policies for Cross-Embodiment...

GR-RL: Going Dexterous and Precise for Long-Horizon Robotic Manipulation

Навигация