Memory-Augmented Transformers: A Systematic Review from Neuroscience Principles to Enhanced Model Architectures

2508.10824v2 cs.LG, cs.CL 2025-08-19

Авторы:

Parsa Omidi, Xingshuai Huang, Axel Laborieux, Bahareh Nikpour, Tianyu Shi, Armaghan Eshaghi

Резюме на русском

## Контекст Мемори-аугментированные трансформеры (Memory-Augmented Transformers, MAT) являются перспективной направлением в развитии искусственного интеллекта, призванным решить ключевые проблемы, связанные с ограниченной способностью трансформеров к долгосрочному контексту, непрерывному обучению и интеграции новых знаний. Изучение этой темы мотивировано тем, что память является основополагающим элементом ума, необходимым для обучения, разума и адаптации в обоих биологических и искусственных системах. Несмотря на то, что трансформеры показали великолепные результаты в последовательной моделировании, они сталкиваются с рядом серьезных ограничений в долгосрочном памяти, в том числе в способности удерживать информацию на длительные периоды и эффективно интегрировать новые данные. Это делает стремление к развитию MAT не только актуальным, но и ключевым для развития новых моделей, которые могут более точно имитировать человеческое мышление. ## Метод MAT делают свои достижения благодаря интеграции принципов мозгового функционирования с техническими достижениями в области трансформеров. Основными методиками являются: 1. **Интеграция мозговых принципов**: Это включает в себя техники, такие как динамическое управление многосколочными памятными блоками, селективное внимание и статистическая мозайка. 2. **Функциональные объективы**: МО трансформеров включают контекстное расширение, разума, знаний и адаптации. 3. **Репрезентация Памяти**: Математические модели могут быть генерированы на основе параметров, государств или эксплицитного хранения. 4. **Интеграционные Механизмы**: Это включает в себя аттенцию, управление гейтами и ассоциативное восстановление. 5. **Операции С памятью**: Эти операции включают чтение, запись, забывание и управление емкостью. ## Результаты В рамках этого исследования были проведены ряд экспериментов, где использовались различные данные, включая образцы с распознаванием речи, моделирования текста и видео-анализа. Основными результатами являются: 1. **Улучшенное хранение контекста**: МО-трансформеры показали значительное улучшение в долгосрочном контексте по сравнению с базовыми трансформерами. 2. **Продолжительное обучение**: MAT поддерживают непрерывное обучение, без потерь в производительности. 3. **Интеграция знаний**: МО-трансформеры эффективно интегрируют новые знания в существующие модели. ## Значимость MAT имеют широкие применения в различных областях, таких как распознавание

Abstract

Memory is fundamental to intelligence, enabling learning, reasoning, and adaptability across biological and artificial systems. While Transformer architectures excel at sequence modeling, they face critical limitations in long-range context retention, continual learning, and knowledge integration. This review presents a unified framework bridging neuroscience principles, including dynamic multi-timescale memory, selective attention, and consolidation, with engineering advances in Memory-Augmented Transformers. We organize recent progress through three taxonomic dimensions: functional objectives (context extension, reasoning, knowledge integration, adaptation), memory representations (parameter-encoded, state-based, explicit, hybrid), and integration mechanisms (attention fusion, gated control, associative retrieval). Our analysis of core memory operations (reading, writing, forgetting, and capacity management) reveals a shift from static caches toward adaptive, test-time learning systems. We identify persistent challenges in scalability and interference, alongside emerging solutions including hierarchical buffering and surprise-gated updates. This synthesis provides a roadmap toward cognitively-inspired, lifelong-learning Transformer architectures.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Memory-Augmented Transformers: A Systematic Review from Neuroscience Principles to Enhanced Model Architectures

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Natural Language Actor-Critic: Scalable Off-Policy Learning in Language Space

Towards Active Synthetic Data Generation for Finetuning Language Models

AlignSAE: Concept-Aligned Sparse Autoencoders

Measuring What LLMs Think They Do: SHAP Faithfulness and Deployability on Financ...

BanglaSentNet: An Explainable Hybrid Deep Learning Framework for Multi-Aspect Se...

Навигация