Memento: Fine-tuning LLM Agents without Fine-tuning LLMs

2508.16153v2 cs.LG, cs.CL 2025-08-26
Авторы:

Huichi Zhou, Yihang Chen, Siyuan Guo, Xue Yan, Kin Hei Lee, Zihan Wang, Ka Yiu Lee, Guchun Zhang, Kun Shao, Linyi Yang, Jun Wang

Резюме на русском

## Контекст Искусственный интеллект (ИИ), основанный на Больших Лингвистических Моделях (LLM), проявляет выдающиеся возможности в области обработки естественного языка. Однако, традиционные методы тренировки этих моделей требуют больших объемов вычислительных ресурсов и данных, что ограничивает их применение в ситуациях, требующих реакции на изменения в реальном времени. Более того, существующие подходы к адаптации LLMs, такие как методы fine-tuning, требуют не только высокой стоимости, но и создают возможность "застрять" в определенном состоянии, не включая реальное развитие. Данная работа формулирует новую модель обучения для LLM-агентов, которая предлагает эффективный и гибкий подход к обучению без необходимости в методе fine-tuning. ## Метод Предлагаемый подход, обозначенный как Memory-augmented Markov Decision Process (M-MDP), является новым парадигмой для адаптивных LLM-агентов. Он предлагает непрерывный процесс обучения с использованием нейронной системы вспомогательного памяти. Эта система кэширует информацию о прошлых опытах в виде нелинейной, оптимизированной структуры. Для возможности выбора действий используется оптимизированный политический механизм, который определяет, какие данные из памяти должны быть задействованы для решения задачи. Эта структура позволяет лишь частично обновлять память, не требуя пересчета всей модели, что делает процесс эффективным с точки зрения вычислительных затрат. ## Результаты Для проверки эффективности предлагаемого подхода, авторы внедрили его в систему Memento. Эксперименты проводились на двух основных наборах данных: GAIA и DeepResearcher. Результаты показали, что Memento достиг оценки Pass@3 на GAIA с процентом $87.88\%$, что является самой высокой результатом среди экспериментов. На данных DeepResearcher, Memento показал F1-меру $66.6\%$ и PM-меру $80.4\%$, превосходя существующие методы. Особенно заметны выигрыши в случае задач, которые требуют обучения вне диапазона исходных данных. Таким образом, новый подход предоставляет способ эффективного обучения LLM-агентов в сценариях, требующих регулярного обновления информации. ## Значимость Предлагаемый подход открывает новые возможности в применении LLM-агентов в сценариях, требующих решения задач в режиме реального времени. Он демонстрирует гибкость и эффективность, не требуя полной тренировки модели. Метод как раз и предлагает выход за рамки статических, трудоёмких и высокозатратных методов fine-tuning. Он имеет широкое применение в сценариях, где необходимо постоянное совершенствование, например,

Abstract

In this paper, we introduce a novel learning paradigm for Adaptive Large Language Model (LLM) agents that eliminates the need for fine-tuning the underlying LLMs. Existing approaches are often either rigid, relying on static, handcrafted reflection workflows, or computationally intensive, requiring gradient updates of LLM model parameters. In contrast, our method enables low-cost continual adaptation via memory-based online reinforcement learning. We formalise this as a Memory-augmented Markov Decision Process (M-MDP), equipped with a neural case-selection policy to guide action decisions. Past experiences are stored in an episodic memory, either differentiable or non-parametric. The policy is continually updated based on environmental feedback through a memory rewriting mechanism, whereas policy improvement is achieved through efficient memory reading (retrieval). We instantiate our agent model in the deep research setting, namely \emph{Memento}, which attains top-1 on GAIA validation ($87.88\%$ Pass@$3$) and $79.40\%$ on the test set. It reaches $66.6\%$ F1 and $80.4\%$ PM on the DeepResearcher dataset, outperforming the state-of-the-art training-based method, while case-based memory adds $4.7\%$ to $9.6\%$ absolute points on out-of-distribution tasks. Our approach offers a scalable and efficient pathway for developing generalist LLM agents capable of continuous, real-time learning without gradient updates, advancing machine learning towards open-ended skill acquisition and deep research scenarios. The code is available at https://github.com/Agent-on-the-Fly/Memento.

Ссылки и действия