Memory-Augmented Transformers: A Systematic Review from Neuroscience Principles to Enhanced Model Architectures
2508.10824v2
cs.LG, cs.CL
2025-08-19
Авторы:
Parsa Omidi, Xingshuai Huang, Axel Laborieux, Bahareh Nikpour, Tianyu Shi, Armaghan Eshaghi
Резюме на русском
## Контекст
Мемори-аугментированные трансформеры (Memory-Augmented Transformers, MAT) являются перспективной направлением в развитии искусственного интеллекта, призванным решить ключевые проблемы, связанные с ограниченной способностью трансформеров к долгосрочному контексту, непрерывному обучению и интеграции новых знаний. Изучение этой темы мотивировано тем, что память является основополагающим элементом ума, необходимым для обучения, разума и адаптации в обоих биологических и искусственных системах. Несмотря на то, что трансформеры показали великолепные результаты в последовательной моделировании, они сталкиваются с рядом серьезных ограничений в долгосрочном памяти, в том числе в способности удерживать информацию на длительные периоды и эффективно интегрировать новые данные. Это делает стремление к развитию MAT не только актуальным, но и ключевым для развития новых моделей, которые могут более точно имитировать человеческое мышление.
## Метод
MAT делают свои достижения благодаря интеграции принципов мозгового функционирования с техническими достижениями в области трансформеров. Основными методиками являются:
1. **Интеграция мозговых принципов**: Это включает в себя техники, такие как динамическое управление многосколочными памятными блоками, селективное внимание и статистическая мозайка.
2. **Функциональные объективы**: МО трансформеров включают контекстное расширение, разума, знаний и адаптации.
3. **Репрезентация Памяти**: Математические модели могут быть генерированы на основе параметров, государств или эксплицитного хранения.
4. **Интеграционные Механизмы**: Это включает в себя аттенцию, управление гейтами и ассоциативное восстановление.
5. **Операции С памятью**: Эти операции включают чтение, запись, забывание и управление емкостью.
## Результаты
В рамках этого исследования были проведены ряд экспериментов, где использовались различные данные, включая образцы с распознаванием речи, моделирования текста и видео-анализа. Основными результатами являются:
1. **Улучшенное хранение контекста**: МО-трансформеры показали значительное улучшение в долгосрочном контексте по сравнению с базовыми трансформерами.
2. **Продолжительное обучение**: MAT поддерживают непрерывное обучение, без потерь в производительности.
3. **Интеграция знаний**: МО-трансформеры эффективно интегрируют новые знания в существующие модели.
## Значимость
MAT имеют широкие применения в различных областях, таких как распознавание
Abstract
Memory is fundamental to intelligence, enabling learning, reasoning, and
adaptability across biological and artificial systems. While Transformer
architectures excel at sequence modeling, they face critical limitations in
long-range context retention, continual learning, and knowledge integration.
This review presents a unified framework bridging neuroscience principles,
including dynamic multi-timescale memory, selective attention, and
consolidation, with engineering advances in Memory-Augmented Transformers. We
organize recent progress through three taxonomic dimensions: functional
objectives (context extension, reasoning, knowledge integration, adaptation),
memory representations (parameter-encoded, state-based, explicit, hybrid), and
integration mechanisms (attention fusion, gated control, associative
retrieval). Our analysis of core memory operations (reading, writing,
forgetting, and capacity management) reveals a shift from static caches toward
adaptive, test-time learning systems. We identify persistent challenges in
scalability and interference, alongside emerging solutions including
hierarchical buffering and surprise-gated updates. This synthesis provides a
roadmap toward cognitively-inspired, lifelong-learning Transformer
architectures.
Ссылки и действия
Дополнительные ресурсы: