CogVLA: Cognition-Aligned Vision-Language-Action Model via Instruction-Driven Routing & Sparsification
2508.21046v1
cs.CV, cs.RO
2025-08-30
Авторы:
Wei Li, Renshan Zhang, Rui Shao, Jie He, Liqiang Nie
Резюме на русском
## Контекст
В современной информатике становится все более актуальной проблема создания моделей, которые могут эффективно обрабатывать информацию, поступающую в различных формах (визуальная, языковая, действительная). Одной из таких моделей являются Vision-Language-Action (VLA) модели, которые способны интерпретировать и выполнять действия на основе визуальных сенсорных данных и текстовых инструкций. Однако существующие VLA-модели часто требуют значительного количества ресурсов для обучения и эффективность их работы остается низкой. В этом контексте возникает необходимость разработки моделей, которые обладалиient при снижении нагрузки на вычислительные ресурсы.
## Метод
CogVLA — это новая модель VLA, которая использует инструкционно-направленную маршрутизацию и спарсинг, чтобы улучшить как эффективность, так и производительность. Она включает три стадии: 1) **EFA-Routing** (Encoder-FiLM based Aggregation Routing) — это система, которая внедряет инструкции в визуальный энкодер, чтобы выбирать и сжимать визуальные токены, создавая инструкционно-ориентированное представление; 2) **LFP-Routing** (LLM-FiLM based Pruning Routing) — позволяет многоуровнево масштабировать языковые модели, удаляя ненужные токены в связи с целями действия; 3) **CAtten** (V-L-A Coupled Attention) — комбинация визуально-языковой и действительно-визуальной внимательности с многопоточной декодированием, чтобы обеспечить точность и согласованность в получении и выполнении действий.
## Результаты
Эксперименты CogVLA проводились на бенчмарке LIBERO и в реальных задачах робототехники. Модель показала высокую точность в этих задачах, достигая успешности 97.4% при задачах на бенчмарке и 70.0% в реальных сценариях. Благодаря сжатию входных данных (токенов) и эффективной архитектуре, CogVLA снизила требования к ресурсам, уменьшив процесс обучения в два раза и снизив потребление вычислительных ресурсов при инференсе на 2.8 раз по сравнению с OpenVLA.
## Значимость
CogVLA может быть применена в различных областях, таких как робототехника, ассистированные технологии и системы видеоанализа. Она обеспечивает более быстрое и эффективное обучение, а также сокращает потребление вычислительных ресурсов во время работы. Этот подход может помочь в развитии моделей, которые будут более экономичными и быстрыми в реальном времени.
## Выводы
CogVLA — это перспективная модель VLA, которая использует инструкционно-направленную маршрутизацию и спарсинг для улучшения производительности и эффективности. Она достигает высоких результатов в задачах робототехники и бенчмарке LIBERO, при этом зна
Abstract
Recent Vision-Language-Action (VLA) models built on pre-trained
Vision-Language Models (VLMs) require extensive post-training, resulting in
high computational overhead that limits scalability and deployment.We propose
CogVLA, a Cognition-Aligned Vision-Language-Action framework that leverages
instruction-driven routing and sparsification to improve both efficiency and
performance. CogVLA draws inspiration from human multimodal coordination and
introduces a 3-stage progressive architecture. 1) Encoder-FiLM based
Aggregation Routing (EFA-Routing) injects instruction information into the
vision encoder to selectively aggregate and compress dual-stream visual tokens,
forming a instruction-aware latent representation. 2) Building upon this
compact visual encoding, LLM-FiLM based Pruning Routing (LFP-Routing)
introduces action intent into the language model by pruning
instruction-irrelevant visually grounded tokens, thereby achieving token-level
sparsity. 3) To ensure that compressed perception inputs can still support
accurate and coherent action generation, we introduce V-L-A Coupled Attention
(CAtten), which combines causal vision-language attention with bidirectional
action parallel decoding. Extensive experiments on the LIBERO benchmark and
real-world robotic tasks demonstrate that CogVLA achieves state-of-the-art
performance with success rates of 97.4% and 70.0%, respectively, while reducing
training costs by 2.5-fold and decreasing inference latency by 2.8-fold
compared to OpenVLA. CogVLA is open-sourced and publicly available at
https://github.com/JiuTian-VL/CogVLA.
Ссылки и действия
Дополнительные ресурсы: