Memory Decoder: A Pretrained, Plug-and-Play Memory for Large Language Models
2508.09874v1
cs.CL, cs.AI
2025-08-15
Авторы:
Jiaqi Cao, Jiarui Wang, Rubin Wei, Qipeng Guo, Kai Chen, Bowen Zhou, Zhouhan Lin
Резюме на русском
## Контекст
Large Language Models (LLMs) доказали свою эффективность в решении общих языковых задач. Однако применение этих моделей к специализированным дисциплинам, таким как биомедицина, финансы и право, требует индивидуальной адаптации, которая традиционно требует дорогостоящей полного переноса параметров (Domain Adaptive Pretraining, DAPT). Эта процедура затратна из-за сложности обучения и катастрофической забываемости. Кроме того, Retrieval-Augmented Generation (RAG), хотя и улучшает адаптацию, приводит к значительному затрату ресурсов на вычисления и долгому времени ответа из-за необходимости поиска в больших выборках. Эти ограничения подчеркивают необходимость разработки эффективных способов адаптации LLMs к конкретным сферам без негативных побочных эффектов.
## Метод
Memory Decoder представляет собой простую, но эффективную архитектуру в виде небольшого transformer-decoder, который настраивается для имитации поведения внешнего непараметрического ретривера. Алгоритм обучения оптимизирует декодер для точного воспроизведения ответов, полученных из внешней памяти. Эта архитектура отличается тем, что она не требует изменения оригинальной модели и может быть легко интегрирована в любую LLM с использованием одного и того же токенизатора. Такое решение обеспечивает высокую эффективность при адаптации к новым сферах, сохраняя всю мощь предварительно обученной модели.
## Результаты
Эксперименты проводились на трех специализированных областях: медицина, финансы и право. Для каждой области были использованы специальные данные, а модели Qwen и Llama были адаптированы с помощью Memory Decoder. Результаты показали существенную улучшение в предсказании текста, снижением perplexity на среднем уровне в 6.17 пунктов по сравнению с оригинальными моделями. Это достигное улучшение подтверждает то, что Memory Decoder добавляет мощь и точность в специализированных темах без необходимости изменять оригинальную модель.
## Значимость
Memory Decoder представляет собой важное дополнение к возможностям LLMs, позволяя их эффективно адаптировать к конкретным дисциплинам без изменения основной модели. Эта модель может быть применена в различных сферах, где требуется высокая точность и эффективность, таких как системы поддержки решений в биомедицине, финансовые системы и системы судебного толкования. Важное преимущество Memory Decoder заключается в том, что он обеспечивает элегантное решение проблемы затратных вычислений и зависимости от дорогих сетей памяти, обеспечивая быструю и точную адаптацию.
## Выводы
Memory Decoder представляет собой перспективное направление в развитии LLMs, предоставляя новый подход к адаптации моделей к специальным дисциплинам. Будущие исследования б
Abstract
Large Language Models (LLMs) have shown strong abilities in general language
tasks, yet adapting them to specific domains remains a challenge. Current
method like Domain Adaptive Pretraining (DAPT) requires costly full-parameter
training and suffers from catastrophic forgetting. Meanwhile,
Retrieval-Augmented Generation (RAG) introduces substantial inference latency
due to expensive nearest-neighbor searches and longer context. This paper
introduces Memory Decoder, a plug-and-play pretrained memory that enables
efficient domain adaptation without changing the original model's parameters.
Memory Decoder employs a small transformer decoder that learns to imitate the
behavior of an external non-parametric retriever. Once trained, Memory Decoder
can be seamlessly integrated with any pretrained language model that shares the
same tokenizer, requiring no model-specific modifications. Experimental results
demonstrate that Memory Decoder enables effective adaptation of various Qwen
and Llama models to three distinct specialized domains: biomedicine, finance,
and law, reducing perplexity by an average of 6.17 points. Overall, Memory
Decoder introduces a novel paradigm centered on a specially pretrained memory
component designed for domain-specific adaptation. This memory architecture can
be integrated in a plug-and-play manner, consistently enhancing performance
across multiple models within the target domain.
Ссылки и действия
Дополнительные ресурсы: