CogVLA: Cognition-Aligned Vision-Language-Action Model via Instruction-Driven Routing & Sparsification

2508.21046v1 cs.CV, cs.RO 2025-08-30
Авторы:

Wei Li, Renshan Zhang, Rui Shao, Jie He, Liqiang Nie

Резюме на русском

## Контекст В современной информатике становится все более актуальной проблема создания моделей, которые могут эффективно обрабатывать информацию, поступающую в различных формах (визуальная, языковая, действительная). Одной из таких моделей являются Vision-Language-Action (VLA) модели, которые способны интерпретировать и выполнять действия на основе визуальных сенсорных данных и текстовых инструкций. Однако существующие VLA-модели часто требуют значительного количества ресурсов для обучения и эффективность их работы остается низкой. В этом контексте возникает необходимость разработки моделей, которые обладалиient при снижении нагрузки на вычислительные ресурсы. ## Метод CogVLA — это новая модель VLA, которая использует инструкционно-направленную маршрутизацию и спарсинг, чтобы улучшить как эффективность, так и производительность. Она включает три стадии: 1) **EFA-Routing** (Encoder-FiLM based Aggregation Routing) — это система, которая внедряет инструкции в визуальный энкодер, чтобы выбирать и сжимать визуальные токены, создавая инструкционно-ориентированное представление; 2) **LFP-Routing** (LLM-FiLM based Pruning Routing) — позволяет многоуровнево масштабировать языковые модели, удаляя ненужные токены в связи с целями действия; 3) **CAtten** (V-L-A Coupled Attention) — комбинация визуально-языковой и действительно-визуальной внимательности с многопоточной декодированием, чтобы обеспечить точность и согласованность в получении и выполнении действий. ## Результаты Эксперименты CogVLA проводились на бенчмарке LIBERO и в реальных задачах робототехники. Модель показала высокую точность в этих задачах, достигая успешности 97.4% при задачах на бенчмарке и 70.0% в реальных сценариях. Благодаря сжатию входных данных (токенов) и эффективной архитектуре, CogVLA снизила требования к ресурсам, уменьшив процесс обучения в два раза и снизив потребление вычислительных ресурсов при инференсе на 2.8 раз по сравнению с OpenVLA. ## Значимость CogVLA может быть применена в различных областях, таких как робототехника, ассистированные технологии и системы видеоанализа. Она обеспечивает более быстрое и эффективное обучение, а также сокращает потребление вычислительных ресурсов во время работы. Этот подход может помочь в развитии моделей, которые будут более экономичными и быстрыми в реальном времени. ## Выводы CogVLA — это перспективная модель VLA, которая использует инструкционно-направленную маршрутизацию и спарсинг для улучшения производительности и эффективности. Она достигает высоких результатов в задачах робототехники и бенчмарке LIBERO, при этом зна

Abstract

Recent Vision-Language-Action (VLA) models built on pre-trained Vision-Language Models (VLMs) require extensive post-training, resulting in high computational overhead that limits scalability and deployment.We propose CogVLA, a Cognition-Aligned Vision-Language-Action framework that leverages instruction-driven routing and sparsification to improve both efficiency and performance. CogVLA draws inspiration from human multimodal coordination and introduces a 3-stage progressive architecture. 1) Encoder-FiLM based Aggregation Routing (EFA-Routing) injects instruction information into the vision encoder to selectively aggregate and compress dual-stream visual tokens, forming a instruction-aware latent representation. 2) Building upon this compact visual encoding, LLM-FiLM based Pruning Routing (LFP-Routing) introduces action intent into the language model by pruning instruction-irrelevant visually grounded tokens, thereby achieving token-level sparsity. 3) To ensure that compressed perception inputs can still support accurate and coherent action generation, we introduce V-L-A Coupled Attention (CAtten), which combines causal vision-language attention with bidirectional action parallel decoding. Extensive experiments on the LIBERO benchmark and real-world robotic tasks demonstrate that CogVLA achieves state-of-the-art performance with success rates of 97.4% and 70.0%, respectively, while reducing training costs by 2.5-fold and decreasing inference latency by 2.8-fold compared to OpenVLA. CogVLA is open-sourced and publicly available at https://github.com/JiuTian-VL/CogVLA.

Ссылки и действия