Provable Benefits of In-Tool Learning for Large Language Models

2508.20755v1 cs.LG, cs.AI, stat.ML 2025-08-29

Авторы:

Sam Houliston, Ambroise Odonnat, Charles Arnal, Vivien Cabannes

Резюме на русском

## Контекст В последние годы становится ясно, что языковые модели (LLMs) способны решать широкий спектр задач, включая контекстные задачи речевого понимания и программирования. Однако, несмотря на их мощь и универсальность, эти модели часто сталкиваются с проблемами в области фактического восприятия и переноса своих знаний на разные задачи. Одним из ключевых моментов является ограниченность возможности LLMs запоминать фактические данные, независимо от их размера. Это огранчает их полезность в ситуациях, требующих большого объема дополнительных данных, таких как аннотации, генерация кода, или различные виды моделирования. В этой статье мы рассматриваем возможности использования внешних инструментов (tool-use) вместо внутренней загрузки (in-weight learning) для улучшения производительности моделей, в частности, для решения задач фактического восприятия. ## Метод Подход, рассматриваемый в статье, основан на сравнении возможностей внутреннего запоминания (in-weight learning) и внешних инструментов для обработки фактических данных. Мы используем метод построения архитектур, который позволяет моделям использовать внешние инструменты для доступа к данным во время выполнения. Мы демонстрируем, что для построения модели, которая может работать с любым количеством данных, необходимо использовать внешние инструменты, так как внутренняя память модели ограничена в размере. Мы проводим эксперименты, показывающие, что модели, использующие внешние инструменты, показывают значительно лучшую производительность по сравнению с моделями, ограниченными внутренним запоминанием. Также мы доказываем, что для предобученных моделей (pretrained LLMs) обучение инструментальных способностей (tool-use) более эффективно, чем переучивание модели (fine-tuning) для внутренней загрузки данных. ## Результаты Мы проводим эксперименты с различными вариантами моделей, в том числе с предобученными моделями, и визуализируем результаты на разных тестах фактического восприятия. Мы проверяем возможность моделей на сохранение и использование фактических данных, используя различные конфигурации: только внутренний запоминающий механизм, только внешний инструмент, и комбинация обеих стратегий. Результаты показывают, что модели, использующие внешние инструменты, не только показывают значительно лучшую производительность, но и могут обрабатывать больше данных, не ограничиваясь конкретным размером внутренней памяти. Также мы показываем, что обучение инструментальных способностей (tool-use) для предобученных моделей дает значительный прирост в производительности и гибкости по сравнению с переучиванием модели (fine-tuning) для

Abstract

Tool-augmented language models, equipped with retrieval, memory, or external APIs, are reshaping AI, yet their theoretical advantages remain underexplored. In this paper, we address this question by demonstrating the benefits of in-tool learning (external retrieval) over in-weight learning (memorization) for factual recall. We show that the number of facts a model can memorize solely in its weights is fundamentally limited by its parameter count. In contrast, we prove that tool-use enables unbounded factual recall via a simple and efficient circuit construction. These results are validated in controlled experiments, where tool-using models consistently outperform memorizing ones. We further show that for pretrained large language models, teaching tool-use and general rules is more effective than finetuning facts into memory. Our work provides both a theoretical and empirical foundation, establishing why tool-augmented workflows are not just practical, but provably more scalable.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Provable Benefits of In-Tool Learning for Large Language Models

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Single-Round Scalable Analytic Federated Learning

Does Flatness imply Generalization for Logistic Loss in Univariate Two-Layer ReL...

Multi-view diffusion geometry using intertwined diffusion trajectories

A Diffusion Model Framework for Maximum Entropy Reinforcement Learning

Beyond Additivity: Sparse Isotonic Shapley Regression toward Nonlinear Explainab...

Навигация