Memory-Augmented Transformers: A Systematic Review from Neuroscience Principles to Technical Solutions

2508.10824v1 cs.LG, cs.CL 2025-08-16

Авторы:

Parsa Omidi, Xingshuai Huang, Axel Laborieux, Bahareh Nikpour, Tianyu Shi, Armaghan Eshaghi

Резюме на русском

#### Контекст Память является основополагающим элементом интеллекта, обеспечивающим обучение, разумный анализ и адаптацию в обоих биологических и искусственных системах. Хотя Transformer-архитектуры доминируют в задачах моделирования последовательностей, они сталкиваются с значительными ограничениями: неэффективностью в долгосрочной контекстной памяти, неустойчивостью при непрерывном обучении и нехваткой встроенного знания. Эта статья создает совместную модель, объединяющую принципы нейронаучных исследований, такие как динамическое управление многоуровневой памятью, селективное внимание и консолидация, с техническими достижениями в области Memory-Augmented Transformers. Она анализирует инновации в развитии памяти для обеспечения долгосрочного знания и гибкого обучения. #### Метод Научная статья основывается на трех основных осях для систематизации прогресса в области Memory-Augmented Transformers. Во-первых, **целевые функции**, включают расширение контекста, разума, интеграции знаний и адаптацию. Во-вторых, **представления памяти**, такие как параметр-зависимые, состояние-зависимые, явные и смешанные. В-третьих, **механизмы интеграции**, такие как аттенционная слияние, гейт-контроль и ассоциативное восстановление. Авторы рассматривают фундаментальные операции памяти — чтение, запись, забывание и управление емкостью — и отмечают переход от статических к динамическим решениям. Они выявляют тенденции к адаптивным, настраиваемым системам, включая лежинг-возобновляемые методы и сюрприз-гатчированные обновления. #### Результаты Анализ показывает, что новые модели предлагают потрясающие улучшения в памяти, непрерывном обучении и работе с большими объемами данных. Эксперименты демонстрируют, что адаптивные системы с гибкими памятными представлениями превосходят статические модели в задачах, требующих долгосрочной памяти и разума. Например, ключевые результаты показывают, что новые методы, такие как гибридная память и управление вниманием, дают более точные и стабильные результаты в динамических средах. Эксперименты также подтверждают, что переход к динамическим, лежинг-возобновляемым системам открывает возможности для более эффективного обучения и контекстной обработки. #### Значимость Эта модель памяти имеет широкие применения в области глубокого обучения, в том числе в задачах распознавания речи, трансляции и синтеза текста. Она предлагает преимущества в области непрерывного обучения, гибкой адаптации к новым задачам и обработке больших данных. Благодаря своему гибком

Abstract

Memory is fundamental to intelligence, enabling learning, reasoning, and adaptability across biological and artificial systems. While Transformer architectures excel at sequence modeling, they face critical limitations in long-range context retention, continual learning, and knowledge integration. This review presents a unified framework bridging neuroscience principles, including dynamic multi-timescale memory, selective attention, and consolidation, with engineering advances in Memory-Augmented Transformers. We organize recent progress through three taxonomic dimensions: functional objectives (context extension, reasoning, knowledge integration, adaptation), memory representations (parameter-encoded, state-based, explicit, hybrid), and integration mechanisms (attention fusion, gated control, associative retrieval). Our analysis of core memory operations (reading, writing, forgetting, and capacity management) reveals a shift from static caches toward adaptive, test-time learning systems. We identify persistent challenges in scalability and interference, alongside emerging solutions including hierarchical buffering and surprise-gated updates. This synthesis provides a roadmap toward cognitively-inspired, lifelong-learning Transformer architectures.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Memory-Augmented Transformers: A Systematic Review from Neuroscience Principles to Technical Solutions

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Natural Language Actor-Critic: Scalable Off-Policy Learning in Language Space

Towards Active Synthetic Data Generation for Finetuning Language Models

AlignSAE: Concept-Aligned Sparse Autoencoders

Measuring What LLMs Think They Do: SHAP Faithfulness and Deployability on Financ...

BanglaSentNet: An Explainable Hybrid Deep Learning Framework for Multi-Aspect Se...

Навигация