VerlTool: Towards Holistic Agentic Reinforcement Learning with Tool Use
2509.01055v1
cs.AI, cs.CL, cs.CV
2025-09-05
Авторы:
Dongfu Jiang, Yi Lu, Zhuofeng Li, Zhiheng Lyu, Ping Nie, Haozhe Wang, Alex Su, Hui Chen, Kai Zou, Chao Du, Tianyu Pang, Wenhu Chen
Резюме на русском
#### Контекст
Рейнфорсментное обучение с верифируемыми наградами (RLVR) доказало свою эффективность в улучшении применимости глубоких нейронных сетей (LLM), однако оно ограничивается однопересеченными интеракциями и не учитывает интеграцию инструментов. Агентное рейнфорсментное обучение с использованием инструментов (ARLT), как стратегия для многопересеченных интеракций, также столкнулось с проблемами, включая распространенную фрагментацию кодовых баз, синхронные выполнения, которые приводят к бутылкам в производительности, и ограниченную модульность для расширения в различных областях. Из-за этих проблем недостаточно развиты методы, облегчающие развитие инструмент-агентных систем. Мы предлагаем VerlTool — модульную и систематическую систему, которая решает эти проблемы, позволяя формализовать ARLT в многошаговых траекториях с многомодальными наблюдениями (текст, изображения, видео).
#### Метод
VerlTool разработана как модульная и архитектурно универсальная система, которая предоставляет значительные улучшения в производительности и модульности. Основные компоненты подхода включают: (1) систематическую интеграцию с VeRL для обеспечения стабильности и удобства в обслуживании, (2) стандартизированные API для управления инструментами, покрывающие различные модальности, такие как код, поиск, SQL-базы данных и выводы визуальных данных, (3) асинхронное исполнение роллаутов для увеличения скорости выполнения и устранения бутылок в синхронизации, и (4) подробную оценку производительности в 6 областях, включая математическое обучение, вопросы и ответы, SQL-генерацию, визуальное обучение, поиск в Интернете и разработку программного обеспечения. Мы также формализуем ARLT как многошаговые траектории с многомодальными обозначениями, позволяя расширить подходы RLVR в многотурных сценариях.
#### Результаты
Мы проводили эксперименты, используя различные данные в многомодальных задачах, включая математическое обучение, вопросы и ответы, SQL-генерацию, визуальное обучение, поиск в Интернете и разработку программного обеспечения. Наши результаты показывают, что VerlTool достигает результатов, которые не уступают специализированным системам в этих областях, при этом обеспечивая значительные выгоды в скорости и модульности. Модульная структура и стандартизированные API позволяют быстро интегрировать новые инструменты, чтобы упростить развитие и обеспечить модульность, необходимую для будущих исследований в области инструмент-агентных систем.
#### Значимость
Предлагаемая система может применяться в многомодальных задачах, включая видеоинтерпретацию,
Abstract
Reinforcement Learning with Verifiable Rewards (RLVR) has demonstrated
success in enhancing LLM reasoning capabilities, but remains limited to
single-turn interactions without tool integration. While recent Agentic
Reinforcement Learning with Tool use (ARLT) approaches have emerged to address
multi-turn tool interactions, existing works develop task-specific codebases
that suffer from fragmentation, synchronous execution bottlenecks, and limited
extensibility across domains. These inefficiencies hinder broader community
adoption and algorithmic innovation. We introduce VerlTool, a unified and
modular framework that addresses these limitations through systematic design
principles. VerlTool provides four key contributions: (1) upstream alignment
with VeRL ensuring compatibility and simplified maintenance, (2) unified tool
management via standardized APIs supporting diverse modalities including code
execution, search, SQL databases, and vision processing, (3) asynchronous
rollout execution achieving near 2$\times$ speedup by eliminating
synchronization bottlenecks, and (4) comprehensive evaluation demonstrating
competitive performance across 6 ARLT domains. Our framework formalizes ARLT as
multi-turn trajectories with multi-modal observation tokens (text/image/video),
extending beyond single-turn RLVR paradigms. We train and evaluate models on
mathematical reasoning, knowledge QA, SQL generation, visual reasoning, web
search, and software engineering tasks, achieving results comparable to
specialized systems while providing unified training infrastructure. The
modular plugin architecture enables rapid tool integration requiring only
lightweight Python definitions, significantly reducing development overhead and
providing a scalable foundation for tool-augmented RL research. Our code is
open-sourced at https://github.com/TIGER-AI-Lab/verl-tool.
Ссылки и действия
Дополнительные ресурсы: