Memory Decoder: A Pretrained, Plug-and-Play Memory for Large Language Models

2508.09874v1 cs.CL, cs.AI 2025-08-15
Авторы:

Jiaqi Cao, Jiarui Wang, Rubin Wei, Qipeng Guo, Kai Chen, Bowen Zhou, Zhouhan Lin

Резюме на русском

## Контекст Large Language Models (LLMs) доказали свою эффективность в решении общих языковых задач. Однако применение этих моделей к специализированным дисциплинам, таким как биомедицина, финансы и право, требует индивидуальной адаптации, которая традиционно требует дорогостоящей полного переноса параметров (Domain Adaptive Pretraining, DAPT). Эта процедура затратна из-за сложности обучения и катастрофической забываемости. Кроме того, Retrieval-Augmented Generation (RAG), хотя и улучшает адаптацию, приводит к значительному затрату ресурсов на вычисления и долгому времени ответа из-за необходимости поиска в больших выборках. Эти ограничения подчеркивают необходимость разработки эффективных способов адаптации LLMs к конкретным сферам без негативных побочных эффектов. ## Метод Memory Decoder представляет собой простую, но эффективную архитектуру в виде небольшого transformer-decoder, который настраивается для имитации поведения внешнего непараметрического ретривера. Алгоритм обучения оптимизирует декодер для точного воспроизведения ответов, полученных из внешней памяти. Эта архитектура отличается тем, что она не требует изменения оригинальной модели и может быть легко интегрирована в любую LLM с использованием одного и того же токенизатора. Такое решение обеспечивает высокую эффективность при адаптации к новым сферах, сохраняя всю мощь предварительно обученной модели. ## Результаты Эксперименты проводились на трех специализированных областях: медицина, финансы и право. Для каждой области были использованы специальные данные, а модели Qwen и Llama были адаптированы с помощью Memory Decoder. Результаты показали существенную улучшение в предсказании текста, снижением perplexity на среднем уровне в 6.17 пунктов по сравнению с оригинальными моделями. Это достигное улучшение подтверждает то, что Memory Decoder добавляет мощь и точность в специализированных темах без необходимости изменять оригинальную модель. ## Значимость Memory Decoder представляет собой важное дополнение к возможностям LLMs, позволяя их эффективно адаптировать к конкретным дисциплинам без изменения основной модели. Эта модель может быть применена в различных сферах, где требуется высокая точность и эффективность, таких как системы поддержки решений в биомедицине, финансовые системы и системы судебного толкования. Важное преимущество Memory Decoder заключается в том, что он обеспечивает элегантное решение проблемы затратных вычислений и зависимости от дорогих сетей памяти, обеспечивая быструю и точную адаптацию. ## Выводы Memory Decoder представляет собой перспективное направление в развитии LLMs, предоставляя новый подход к адаптации моделей к специальным дисциплинам. Будущие исследования б

Abstract

Large Language Models (LLMs) have shown strong abilities in general language tasks, yet adapting them to specific domains remains a challenge. Current method like Domain Adaptive Pretraining (DAPT) requires costly full-parameter training and suffers from catastrophic forgetting. Meanwhile, Retrieval-Augmented Generation (RAG) introduces substantial inference latency due to expensive nearest-neighbor searches and longer context. This paper introduces Memory Decoder, a plug-and-play pretrained memory that enables efficient domain adaptation without changing the original model's parameters. Memory Decoder employs a small transformer decoder that learns to imitate the behavior of an external non-parametric retriever. Once trained, Memory Decoder can be seamlessly integrated with any pretrained language model that shares the same tokenizer, requiring no model-specific modifications. Experimental results demonstrate that Memory Decoder enables effective adaptation of various Qwen and Llama models to three distinct specialized domains: biomedicine, finance, and law, reducing perplexity by an average of 6.17 points. Overall, Memory Decoder introduces a novel paradigm centered on a specially pretrained memory component designed for domain-specific adaptation. This memory architecture can be integrated in a plug-and-play manner, consistently enhancing performance across multiple models within the target domain.

Ссылки и действия