Tool-R1: Sample-Efficient Reinforcement Learning for Agentic Tool Use
2509.12867v1
cs.LG, cs.CV
2025-09-18
Авторы:
Yabo Zhang, Yihan Zeng, Qingyun Li, Zhen Hu, Kavin Han, Wangmeng Zuo
Резюме на русском
## Контекст
Большие языковые модели (LLMs) проявляют выдающиеся способности в понимании и разумении текста. Однако они сталкиваются с ограничениями при выполнении реального мирового заданий, которые требуют актуальной знаний, точных операций или специального использования инструментов. Эти ограничения возникают из-за невозможности моделей обновлять свои знания в реальном времени, а также из-за нехватки удостоверенности и эффективности при работе с инструментами.
В результате, появилась необходимость в развитии систем, которые могли бы обеспечивать надежную и эффективную работу с инструментами в различных сценариях. Это включает в себя возможность выполнять сложные, многошаговые задачи, интегрировать пользовательские инструменты, а также обеспечивать согласованность в работе в различных этапах.
## Метод
Мы предлагаем **Tool-R1** — рамформу reinforcement learning, которая позволяет LLMs выполнять сложные многошаговые задачи с помощью генерации исполняемого кода Python. Рамформа Tool-R1 расширяет модели естественных языков с помощью инструментов и стандартных библиотек, обеспечивая переменную синхронизацию между этапами. Это позволяет создавать более сложные и согласованные рабочие процессы.
Чтобы оптимизировать политику, мы используем результатно-ориентированную функцию награды, которая объединяет оценку ответа модели языка и успешность выполнения кода. Для повышения эффективности обучения, мы вводим динамическую очередь семплов, которая позволяет кэшировать и повторно использовать высококачественные траектории, уменьшая стоимость дорогостоящего онлайн-семплирования.
## Результаты
Мы проверяли эффективность Tool-R1 на GAIA-benchmark, выполняя многошаговые задачи, включая сложные сценарии, требующие точных операций и интеграции инструментов. Наши результаты показали, что Tool-R1 достигает прироста до 10% в точности и надёжности по сравнению с основными базисами. Эти улучшения особенно заметны при выполнении сложных, многошаговых задач.
Этот результат показывает, что Tool-R1 может быть эффективным средством для обеспечения стабильной и точной работы с инструментами в реальных мировых задачах, которые требуют высокой точности и композиционности.
## Значимость
Tool-R1 может быть применен в различных областях, где необходимо выполнять сложные задачи, включающие инструменты и композиционные процессы. Например, это может быть полезно в сферах, таких как проектирование, анализ данных, автоматизация рабочих процессов и системы управления домашними устройствами.
Преимущества Tool-R1 заключаются в предоставлении улучшенной точности и устойчиво
Abstract
Large language models (LLMs) have demonstrated strong capabilities in
language understanding and reasoning, yet they remain limited when tackling
real-world tasks that require up-to-date knowledge, precise operations, or
specialized tool use. To address this, we propose Tool-R1, a reinforcement
learning framework that enables LLMs to perform general, compositional, and
multi-step tool use by generating executable Python code. Tool-R1 supports
integration of user-defined tools and standard libraries, with variable sharing
across steps to construct coherent workflows. An outcome-based reward function,
combining LLM-based answer judgment and code execution success, guides policy
optimization. To improve training efficiency, we maintain a dynamic sample
queue to cache and reuse high-quality trajectories, reducing the overhead of
costly online sampling. Experiments on the GAIA benchmark show that Tool-R1
substantially improves both accuracy and robustness, achieving about 10\% gain
over strong baselines, with larger improvements on complex multi-step tasks.
These results highlight the potential of Tool-R1 for enabling reliable and
efficient tool-augmented reasoning in real-world applications. Our code will be
available at https://github.com/YBYBZhang/Tool-R1.
Ссылки и действия
Дополнительные ресурсы: