MemoryVLA: Perceptual-Cognitive Memory in Vision-Language-Action Models for Robotic Manipulation
2508.19236v1
cs.RO, cs.CV
2025-08-28
Авторы:
Hao Shi, Bin Xie, Yingfei Liu, Lin Sun, Fengrong Liu, Tiancai Wang, Erjin Zhou, Haoqiang Fan, Xiangyu Zhang, Gao Huang
Резюме на русском
## Контекст
Роботическая манипуляция является ключевым заданием в области искусственного интеллекта и робототехники, особенно при выполнении сложных, непрерывных задач. Такие задачи часто требуют учета временного контекста и зависимости от прошлого, что ставит перед моделями Vision-Language-Action (VLA) трудности в обработке немарковских ситуаций. Несмотря на прогресс в области VLA-моделей, текущие подходы либо не учитывают временного контекста, либо слабо справляются с задачами, требующими длительного горизонта времени. Это приводит к ошибкам в выборе действий и нехватке семантического понимания. Существует необходимость в моделях, которые могут эффективно учитывать временный контекст, основываясь на предметных данных и сигналах. Наша модель MemoryVLA предлагает решение для этих проблем, используя идеи из когнитивной науки о рабочей памяти и эпизодической памяти.
## Метод
MemoryVLA — это перспективное Cognition-Memory-Action фреймворк, использующее pretrained Vision-Language Model (VLM) для преобразования входных данных в perceptual и cognitive tokens. Эти токены формируют рабочую память, хранящую релевантные для задачи сигналы. Для решения проблем, связанных с длительным горизонтом, мы вводим Perceptual-Cognitive Memory Bank, которая способна хранить и обрабатывать как низкоуровневые детали, так и высокоуровневые семантические сведения. Working memory адаптивно извлекает и объединяет токены из Memory Bank, чтобы обеспечить лучшие решения. Для генерации действий мы вводим Memory-Conditioned Diffusion Action Expert, предсказывающий долгосрочные последовательности действий. Этот подход позволяет MemoryVLA принимать решения с учетом временного контекста.
## Результаты
Мы оценили MemoryVLA на более чем 150 симуляционных и реальных задачах, используя три разных робота. На SimplerEnv-Bridge, Fractal и LIBERO-5 она показала 71.9%, 72.7% и 96.5% успеха соответственно, превзойдя состояние технологии CogACT и pi-0 с приростом +14.6. Также были проведены 12 реальных экспериментов, где MemoryVLA достигла 84.0% успеха, показав прирост +26 в задачах с длительным горизонтом времени в сравнении с CogACT. Наши результаты показывают, что MemoryVLA не только выполняет задачи с высокой точностью, но и демонстрирует значительный прогресс в обработке сложных задач, требующих учета временного развития.
## Значимость
MemoryVLA может быть применена в различных сферах, где требуется высокая точность в манипуляциях и учет временных зависимостей. Это включает в себя медицину, промышленность, а также домашние и офисные роботы. Метод предлагает значительные преимущества, такие как уменьшение ошибок, повышение эффективности и более естественное взаимодействие с окружением. Это может привести
Abstract
Temporal context is essential for robotic manipulation because such tasks are
inherently non-Markovian, yet mainstream VLA models typically overlook it and
struggle with long-horizon, temporally dependent tasks. Cognitive science
suggests that humans rely on working memory to buffer short-lived
representations for immediate control, while the hippocampal system preserves
verbatim episodic details and semantic gist of past experience for long-term
memory. Inspired by these mechanisms, we propose MemoryVLA, a
Cognition-Memory-Action framework for long-horizon robotic manipulation. A
pretrained VLM encodes the observation into perceptual and cognitive tokens
that form working memory, while a Perceptual-Cognitive Memory Bank stores
low-level details and high-level semantics consolidated from it. Working memory
retrieves decision-relevant entries from the bank, adaptively fuses them with
current tokens, and updates the bank by merging redundancies. Using these
tokens, a memory-conditioned diffusion action expert yields temporally aware
action sequences. We evaluate MemoryVLA on 150+ simulation and real-world tasks
across three robots. On SimplerEnv-Bridge, Fractal, and LIBERO-5 suites, it
achieves 71.9%, 72.7%, and 96.5% success rates, respectively, all outperforming
state-of-the-art baselines CogACT and pi-0, with a notable +14.6 gain on
Bridge. On 12 real-world tasks spanning general skills and long-horizon
temporal dependencies, MemoryVLA achieves 84.0% success rate, with long-horizon
tasks showing a +26 improvement over state-of-the-art baseline. Project Page:
https://shihao1895.github.io/MemoryVLA
Ссылки и действия
Дополнительные ресурсы: