ArcMemo: Abstract Reasoning Composition with Lifelong LLM Memory

2509.04439v2 cs.AI, cs.CL, cs.LG 2025-09-09
Авторы:

Matthew Ho, Chen Si, Zhaoxiang Feng, Fangxu Yu, Yichi Yang, Zhijian Liu, Zhiting Hu, Lianhui Qin

Резюме на русском

## Контекст Одна из основных проблем современных моделей глубокого обучения заключается в ограниченной способности сохранять и использовать полученные знания в течение длительного времени. Традиционные модели, такие как LLMs (Large Language Models), обладают внушительным возможностями для выполнения логических задач, однако во время выполнения они не могут сохранить знания, накопленные в ходе работы в режиме реального времени. Это приводит к тому, что каждая новая задача обрабатывается абсолютно самостоятельно, не используя результаты предыдущих работ. Это ограничивает эффективность моделей в решении задач, требующих глубокого абстрактного разума и строгой композиции. Мы предлагаем систему `ArcMemo`, которая решает эту проблему путем создания внешней памяти, построенной на абстрактных концепциях, и позволяющей модели обучаться во время выполнения заданий. ## Метод `ArcMemo` работает на основе следующих принципов: 1. **Абстрактные Рассуждения и Композиция**: Мы разрабатываем алгоритмы для абстрагирования значимости от решений в ходе выполнения задач. Эти рассуждения формируют составные части, которые могут быть повторно использованы в будущих задачах. 2. **Внешняя Память на Основе НЛП**: Внешняя память хранится в виде естественного языка и состоит из логических модулей, которые могут быть повторно использованы и расширены. 3. **Интеграция Памяти в Время Выполнения**: Мы вводим технологию "тестового непрерывного обучения", в которой модель может использовать сохраненные концепции для решения новых задач без переобучения весов модели. 4. **Стратегии Ретриева и Обновления**: Мы предлагаем способы выбора полезных концепций в зависимости от задачи, а также механизмы для их динамического обновления в процессе работы. 5. **Архитектура**: `ArcMemo` включает модуль абстракции, занимающийся формированием логических моделей задач, и модуль внешней памяти, который хранит и получает знания в естественном языке. ## Результаты Мы провели эксперименты на базе сетки обучения `ARC-AGI`, которая требует высокой степени композиции и логической гибкости. В результате: - `ArcMemo` показала **7,5% относительного выигрыша** по сравнению с моделью без внешней памяти. - Динамическое обновление памяти показало лучшие результаты, чем статический вариант, что подтверждает гипотезу о том, что чем больше модель учится, тем лучше она решает новые задачи. - Мы также обнаружили, что абстрактные концепции показали себя как самый эффективный вариант памяти в работе модели. ## Значимость `ArcMemo` может быть применена в области роботов-экспертов, человеко

Abstract

While inference-time scaling enables LLMs to carry out increasingly long and capable reasoning traces, the patterns and insights uncovered during these traces are immediately discarded once the context window is reset for a new query. External memory is a natural way to persist these discoveries, and recent work has shown clear benefits for reasoning-intensive tasks. We see an opportunity to make such memories more broadly reusable and scalable by moving beyond instance-based memory entries (e.g. exact query/response pairs, or summaries tightly coupled with the original problem context) toward concept-level memory: reusable, modular abstractions distilled from solution traces and stored in natural language. For future queries, relevant concepts are selectively retrieved and integrated into the prompt, enabling test-time continual learning without weight updates. Our design introduces new strategies for abstracting takeaways from rollouts and retrieving entries for new queries, promoting reuse and allowing memory to expand with additional experiences. We evaluate on ARC-AGI, a benchmark that stresses compositional generalization and abstract reasoning, making it a natural fit for concept memory. Our method yields a 7.5% relative gain over a strong no-memory baseline with performance continuing to scale with inference compute. We find abstract concepts to be the most consistent memory design, outscoring the baseline at all tested inference compute scales. Moreover, dynamically updating memory during test-time outperforms fixed settings, supporting the hypothesis that accumulating and abstracting patterns enables further solutions in a form of self-improvement. Code is available at https://github.com/matt-seb-ho/arc_memo.

Ссылки и действия