ArcMemo: Abstract Reasoning Composition with Lifelong LLM Memory
2509.04439v2
cs.AI, cs.CL, cs.LG
2025-09-09
Авторы:
Matthew Ho, Chen Si, Zhaoxiang Feng, Fangxu Yu, Yichi Yang, Zhijian Liu, Zhiting Hu, Lianhui Qin
Резюме на русском
## Контекст
Одна из основных проблем современных моделей глубокого обучения заключается в ограниченной способности сохранять и использовать полученные знания в течение длительного времени. Традиционные модели, такие как LLMs (Large Language Models), обладают внушительным возможностями для выполнения логических задач, однако во время выполнения они не могут сохранить знания, накопленные в ходе работы в режиме реального времени. Это приводит к тому, что каждая новая задача обрабатывается абсолютно самостоятельно, не используя результаты предыдущих работ. Это ограничивает эффективность моделей в решении задач, требующих глубокого абстрактного разума и строгой композиции. Мы предлагаем систему `ArcMemo`, которая решает эту проблему путем создания внешней памяти, построенной на абстрактных концепциях, и позволяющей модели обучаться во время выполнения заданий.
## Метод
`ArcMemo` работает на основе следующих принципов:
1. **Абстрактные Рассуждения и Композиция**: Мы разрабатываем алгоритмы для абстрагирования значимости от решений в ходе выполнения задач. Эти рассуждения формируют составные части, которые могут быть повторно использованы в будущих задачах.
2. **Внешняя Память на Основе НЛП**: Внешняя память хранится в виде естественного языка и состоит из логических модулей, которые могут быть повторно использованы и расширены.
3. **Интеграция Памяти в Время Выполнения**: Мы вводим технологию "тестового непрерывного обучения", в которой модель может использовать сохраненные концепции для решения новых задач без переобучения весов модели.
4. **Стратегии Ретриева и Обновления**: Мы предлагаем способы выбора полезных концепций в зависимости от задачи, а также механизмы для их динамического обновления в процессе работы.
5. **Архитектура**: `ArcMemo` включает модуль абстракции, занимающийся формированием логических моделей задач, и модуль внешней памяти, который хранит и получает знания в естественном языке.
## Результаты
Мы провели эксперименты на базе сетки обучения `ARC-AGI`, которая требует высокой степени композиции и логической гибкости. В результате:
- `ArcMemo` показала **7,5% относительного выигрыша** по сравнению с моделью без внешней памяти.
- Динамическое обновление памяти показало лучшие результаты, чем статический вариант, что подтверждает гипотезу о том, что чем больше модель учится, тем лучше она решает новые задачи.
- Мы также обнаружили, что абстрактные концепции показали себя как самый эффективный вариант памяти в работе модели.
## Значимость
`ArcMemo` может быть применена в области роботов-экспертов, человеко
Abstract
While inference-time scaling enables LLMs to carry out increasingly long and
capable reasoning traces, the patterns and insights uncovered during these
traces are immediately discarded once the context window is reset for a new
query. External memory is a natural way to persist these discoveries, and
recent work has shown clear benefits for reasoning-intensive tasks. We see an
opportunity to make such memories more broadly reusable and scalable by moving
beyond instance-based memory entries (e.g. exact query/response pairs, or
summaries tightly coupled with the original problem context) toward
concept-level memory: reusable, modular abstractions distilled from solution
traces and stored in natural language. For future queries, relevant concepts
are selectively retrieved and integrated into the prompt, enabling test-time
continual learning without weight updates. Our design introduces new strategies
for abstracting takeaways from rollouts and retrieving entries for new queries,
promoting reuse and allowing memory to expand with additional experiences. We
evaluate on ARC-AGI, a benchmark that stresses compositional generalization and
abstract reasoning, making it a natural fit for concept memory. Our method
yields a 7.5% relative gain over a strong no-memory baseline with performance
continuing to scale with inference compute. We find abstract concepts to be the
most consistent memory design, outscoring the baseline at all tested inference
compute scales. Moreover, dynamically updating memory during test-time
outperforms fixed settings, supporting the hypothesis that accumulating and
abstracting patterns enables further solutions in a form of self-improvement.
Code is available at https://github.com/matt-seb-ho/arc_memo.
Ссылки и действия
Дополнительные ресурсы: