ArcMemo: Abstract Reasoning Composition with Lifelong LLM Memory

2509.04439v1 cs.AI, cs.CL, cs.LG 2025-09-06
Авторы:

Matthew Ho, Chen Si, Zhaoxiang Feng, Fangxu Yu, Zhijian Liu, Zhiting Hu, Lianhui Qin

Резюме на русском

## Контекст Современные текстовые глубокозатрагивающие модели (LLMs) обладают возможностью выполнять рассуждения различной сложности. Однако при выполнении новых задач они часто потеряют возможность повторно применять накопленные ранее знания и выводы. Это ограничивает их эффективность при решении задач, требующих постоянного обучения в процессе работы. Для решения этой проблемы вводится концепция **"тест-time continual learning"**, которая позволяет моделям в процессе работы учиться на новых данных и совершенствоваться. Одним из вариантов этого подхода является использование **внешней памяти**, которая может хранить полученные выводы и концепции в естественном языке. Исследование подтверждает, что такой подход повышает эффективность в решении рассуждений, особенно в задачах, требующих значительной логической структуры. Идея ArcMemo — создать систему, которая бы не только помогала моделям в решении рассуждений, но и сохраняла наиболее универсальные знания в виде **концептуальных модулей**, которые могут быть повторно применены в будущих задачах. ## Метод ArcMemo работает на основе **тест-time continual learning** с использованием **концептуальной внешней памяти**. Основной идеей является использование **техники роллаутов** (rollouts), которая позволяет модели в процессе работы делать выводы и хранить их в виде **концептуальных абстракций** — естественно языковых описаний решений. Эти абстракции после этого могут быть **выбираться и интегрированы** в новые задачи, чтобы помочь модели в решении новых задач. ArcMemo использует два ключевых аспекта: 1. **Абстрактные модули** — модули, которые представляют собой стабильные и универсальные решения, выведенные из роллаутов. 2. **Динамическое обновление памяти** — постоянное добавление новых модулей и удаление устаревших при помощи тест-time continual learning. Это позволяет модели ArcMemo расти в силе и эффективности в процессе выполнения задач. Техника роллаутов позволяет находить сложные решения задач и записывать их в естественно языковом виде в виде **концептуальных модулей**. Эти модули, в свою очередь, могут быть повторно использованы при решении новых задач. ## Результаты Исследование проводилось на **ARC-AGI benchmark**, который требует выполнения сложных рассуждений. Отмечается, что система ArcMemo показывает **7.5% относительный выигрыш** по сравнению с теми же моделями без внешней памяти. Особенно полезность **концептуальных модулей** продемонстрирована в задачах, требующих высокой логической структуры. Также было показано, что модель ArcMemo становится эффективнее при увеличении компьютерных ресурсов и количества решенных задач, что подтверждает свою способность

Abstract

While inference-time scaling enables LLMs to carry out increasingly long and capable reasoning traces, the patterns and insights uncovered during these traces are immediately discarded once the context window is reset for a new query. External memory is a natural way to persist these discoveries, and recent work has shown clear benefits for reasoning-intensive tasks. We see an opportunity to make such memories more broadly reusable and scalable by moving beyond instance-based memory entries (e.g. exact query/response pairs, or summaries tightly coupled with the original problem context) toward concept-level memory: reusable, modular abstractions distilled from solution traces and stored in natural language. For future queries, relevant concepts are selectively retrieved and integrated into the prompt, enabling test-time continual learning without weight updates. Our design introduces new strategies for abstracting takeaways from rollouts and retrieving entries for new queries, promoting reuse and allowing memory to expand with additional experiences. On the challenging ARC-AGI benchmark, our method yields a 7.5% relative gain over a strong no-memory baseline with performance continuing to scale with inference compute. We find abstract concepts to be the most consistent memory design, outscoring the baseline at all tested inference compute scales. Moreover, we confirm that dynamically updating memory during test-time outperforms an otherwise identical fixed memory setting with additional attempts, supporting the hypothesis that solving more problems and abstracting more patterns to memory enables further solutions in a form of self-improvement. Code available at https://github.com/matt-seb-ho/arc_memo.

Ссылки и действия