MemoryVLA: Perceptual-Cognitive Memory in Vision-Language-Action Models for Robotic Manipulation

2508.19236v1 cs.RO, cs.CV 2025-08-28

Авторы:

Hao Shi, Bin Xie, Yingfei Liu, Lin Sun, Fengrong Liu, Tiancai Wang, Erjin Zhou, Haoqiang Fan, Xiangyu Zhang, Gao Huang

Резюме на русском

## Контекст Роботическая манипуляция является ключевым заданием в области искусственного интеллекта и робототехники, особенно при выполнении сложных, непрерывных задач. Такие задачи часто требуют учета временного контекста и зависимости от прошлого, что ставит перед моделями Vision-Language-Action (VLA) трудности в обработке немарковских ситуаций. Несмотря на прогресс в области VLA-моделей, текущие подходы либо не учитывают временного контекста, либо слабо справляются с задачами, требующими длительного горизонта времени. Это приводит к ошибкам в выборе действий и нехватке семантического понимания. Существует необходимость в моделях, которые могут эффективно учитывать временный контекст, основываясь на предметных данных и сигналах. Наша модель MemoryVLA предлагает решение для этих проблем, используя идеи из когнитивной науки о рабочей памяти и эпизодической памяти. ## Метод MemoryVLA — это перспективное Cognition-Memory-Action фреймворк, использующее pretrained Vision-Language Model (VLM) для преобразования входных данных в perceptual и cognitive tokens. Эти токены формируют рабочую память, хранящую релевантные для задачи сигналы. Для решения проблем, связанных с длительным горизонтом, мы вводим Perceptual-Cognitive Memory Bank, которая способна хранить и обрабатывать как низкоуровневые детали, так и высокоуровневые семантические сведения. Working memory адаптивно извлекает и объединяет токены из Memory Bank, чтобы обеспечить лучшие решения. Для генерации действий мы вводим Memory-Conditioned Diffusion Action Expert, предсказывающий долгосрочные последовательности действий. Этот подход позволяет MemoryVLA принимать решения с учетом временного контекста. ## Результаты Мы оценили MemoryVLA на более чем 150 симуляционных и реальных задачах, используя три разных робота. На SimplerEnv-Bridge, Fractal и LIBERO-5 она показала 71.9%, 72.7% и 96.5% успеха соответственно, превзойдя состояние технологии CogACT и pi-0 с приростом +14.6. Также были проведены 12 реальных экспериментов, где MemoryVLA достигла 84.0% успеха, показав прирост +26 в задачах с длительным горизонтом времени в сравнении с CogACT. Наши результаты показывают, что MemoryVLA не только выполняет задачи с высокой точностью, но и демонстрирует значительный прогресс в обработке сложных задач, требующих учета временного развития. ## Значимость MemoryVLA может быть применена в различных сферах, где требуется высокая точность в манипуляциях и учет временных зависимостей. Это включает в себя медицину, промышленность, а также домашние и офисные роботы. Метод предлагает значительные преимущества, такие как уменьшение ошибок, повышение эффективности и более естественное взаимодействие с окружением. Это может привести

Abstract

Temporal context is essential for robotic manipulation because such tasks are inherently non-Markovian, yet mainstream VLA models typically overlook it and struggle with long-horizon, temporally dependent tasks. Cognitive science suggests that humans rely on working memory to buffer short-lived representations for immediate control, while the hippocampal system preserves verbatim episodic details and semantic gist of past experience for long-term memory. Inspired by these mechanisms, we propose MemoryVLA, a Cognition-Memory-Action framework for long-horizon robotic manipulation. A pretrained VLM encodes the observation into perceptual and cognitive tokens that form working memory, while a Perceptual-Cognitive Memory Bank stores low-level details and high-level semantics consolidated from it. Working memory retrieves decision-relevant entries from the bank, adaptively fuses them with current tokens, and updates the bank by merging redundancies. Using these tokens, a memory-conditioned diffusion action expert yields temporally aware action sequences. We evaluate MemoryVLA on 150+ simulation and real-world tasks across three robots. On SimplerEnv-Bridge, Fractal, and LIBERO-5 suites, it achieves 71.9%, 72.7%, and 96.5% success rates, respectively, all outperforming state-of-the-art baselines CogACT and pi-0, with a notable +14.6 gain on Bridge. On 12 real-world tasks spanning general skills and long-horizon temporal dependencies, MemoryVLA achieves 84.0% success rate, with long-horizon tasks showing a +26 improvement over state-of-the-art baseline. Project Page: https://shihao1895.github.io/MemoryVLA

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

MemoryVLA: Perceptual-Cognitive Memory in Vision-Language-Action Models for Robotic Manipulation

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

From Generated Human Videos to Physically Plausible Robot Trajectories

Sign Language Recognition using Bidirectional Reservoir Computing

FOM-Nav: Frontier-Object Maps for Object Goal Navigation

Opening the Sim-to-Real Door for Humanoid Pixel-to-Action Policy Transfer

Estimation of Kinematic Motion from Dashcam Footage

Навигация