ArcMemo: Abstract Reasoning Composition with Lifelong LLM Memory
2509.04439v1
cs.AI, cs.CL, cs.LG
2025-09-06
Авторы:
Matthew Ho, Chen Si, Zhaoxiang Feng, Fangxu Yu, Zhijian Liu, Zhiting Hu, Lianhui Qin
Резюме на русском
## Контекст
Современные текстовые глубокозатрагивающие модели (LLMs) обладают возможностью выполнять рассуждения различной сложности. Однако при выполнении новых задач они часто потеряют возможность повторно применять накопленные ранее знания и выводы. Это ограничивает их эффективность при решении задач, требующих постоянного обучения в процессе работы. Для решения этой проблемы вводится концепция **"тест-time continual learning"**, которая позволяет моделям в процессе работы учиться на новых данных и совершенствоваться. Одним из вариантов этого подхода является использование **внешней памяти**, которая может хранить полученные выводы и концепции в естественном языке. Исследование подтверждает, что такой подход повышает эффективность в решении рассуждений, особенно в задачах, требующих значительной логической структуры. Идея ArcMemo — создать систему, которая бы не только помогала моделям в решении рассуждений, но и сохраняла наиболее универсальные знания в виде **концептуальных модулей**, которые могут быть повторно применены в будущих задачах.
## Метод
ArcMemo работает на основе **тест-time continual learning** с использованием **концептуальной внешней памяти**. Основной идеей является использование **техники роллаутов** (rollouts), которая позволяет модели в процессе работы делать выводы и хранить их в виде **концептуальных абстракций** — естественно языковых описаний решений. Эти абстракции после этого могут быть **выбираться и интегрированы** в новые задачи, чтобы помочь модели в решении новых задач. ArcMemo использует два ключевых аспекта:
1. **Абстрактные модули** — модули, которые представляют собой стабильные и универсальные решения, выведенные из роллаутов.
2. **Динамическое обновление памяти** — постоянное добавление новых модулей и удаление устаревших при помощи тест-time continual learning.
Это позволяет модели ArcMemo расти в силе и эффективности в процессе выполнения задач. Техника роллаутов позволяет находить сложные решения задач и записывать их в естественно языковом виде в виде **концептуальных модулей**. Эти модули, в свою очередь, могут быть повторно использованы при решении новых задач.
## Результаты
Исследование проводилось на **ARC-AGI benchmark**, который требует выполнения сложных рассуждений. Отмечается, что система ArcMemo показывает **7.5% относительный выигрыш** по сравнению с теми же моделями без внешней памяти. Особенно полезность **концептуальных модулей** продемонстрирована в задачах, требующих высокой логической структуры. Также было показано, что модель ArcMemo становится эффективнее при увеличении компьютерных ресурсов и количества решенных задач, что подтверждает свою способность
Abstract
While inference-time scaling enables LLMs to carry out increasingly long and
capable reasoning traces, the patterns and insights uncovered during these
traces are immediately discarded once the context window is reset for a new
query. External memory is a natural way to persist these discoveries, and
recent work has shown clear benefits for reasoning-intensive tasks. We see an
opportunity to make such memories more broadly reusable and scalable by moving
beyond instance-based memory entries (e.g. exact query/response pairs, or
summaries tightly coupled with the original problem context) toward
concept-level memory: reusable, modular abstractions distilled from solution
traces and stored in natural language. For future queries, relevant concepts
are selectively retrieved and integrated into the prompt, enabling test-time
continual learning without weight updates. Our design introduces new strategies
for abstracting takeaways from rollouts and retrieving entries for new queries,
promoting reuse and allowing memory to expand with additional experiences. On
the challenging ARC-AGI benchmark, our method yields a 7.5% relative gain over
a strong no-memory baseline with performance continuing to scale with inference
compute. We find abstract concepts to be the most consistent memory design,
outscoring the baseline at all tested inference compute scales. Moreover, we
confirm that dynamically updating memory during test-time outperforms an
otherwise identical fixed memory setting with additional attempts, supporting
the hypothesis that solving more problems and abstracting more patterns to
memory enables further solutions in a form of self-improvement. Code available
at https://github.com/matt-seb-ho/arc_memo.
Ссылки и действия
Дополнительные ресурсы: