Generalizable End-to-End Tool-Use RL with Synthetic CodeGym
2509.17325v1
cs.LG, cs.AI, cs.CL
2025-09-24
Авторы:
Weihua Du, Hailei Gong, Zhan Ling, Kang Liu, Lingfeng Shen, Xuesong Yao, Yufei Xu, Dingyuan Shi, Yiming Yang, Jiecao Chen
Резюме на русском
#### Контекст
Одна из основных целей современной искусственной интеллектуальной системы — достижение границ заданного рабочего процесса. Несмотря на то, что существуют инструменты с искусственным интеллектом (LLMs), которые могут использоваться для выполнения различных задач в реальном мире, существуют проблемы, связанные с нехваткой гибкости в подходе. Например, существующие методы основываются на процедурах супервизованного оптимизации и расширения технических решений. Однако эти подходы ограничены рабочими процессами, в которых они были тренированы, и не могут обеспечивать общее понимание различных ситуаций. Кроме того, использование кода для примера демонстрирует многочисленные структуры в реальных рабочих процессах, что позволяет использовать его для развития оптимального алгоритма. Таким образом, целью этого исследования является создание нейросетевой системы, которая может использоваться для решения различных задач с помощью синтезированных скриптов.
#### Метод
Для решения этой проблемы предлагается методология, основанная на создании и использовании синтезированных скриптов. Основной идеей является изменение статических кодов на интерактивные среды, где можно активно испытать и оптимизировать рабочие процессы. Для этого был разработан фреймворк, названный CodeGym. Он состоит из двух основных элементов: (1) — создания верифицируемых задач с различными структурами рабочих процессов, и (2) — создания интерактивных сред для тестирования и оценки работы моделей. Это позволяет модели учиться, используя различные типы задач и ситуаций, что улучшает их гибкость и общую производительность.
#### Результаты
Проведено несколько экспериментов, в которых тестировались различные модели AI на синтезированных задачах. Для этого были использованы данные, полученные в рамках CodeGym, которые включали в себя различные типы синтезированных скриптов. На основе этих задач были проведены эксперименты, которые показали, что модели, обученные на CodeGym, показывают значительное улучшение в общей производительности и гибкости. Например, Qwen2.5-32B-Instruct показала абсолютный прирост точности в 8.7 баллов на OOD бенчмарке $\tau$-Bench. Эти результаты позволяют сделать вывод, что CodeGym является эффективным фреймворком для развития общего понимания различных рабочих процессов.
#### Значимость
CodeGym может быть использован в различных областях, где требуется улучшение гибкости и скорости решения задач. Он позволяет создавать интерактивные среды для тестирования и оценки работы моделей, что позволяет улучшать их возможности в рабочих процессах. Это может быть применено в задачах, где необхо
Abstract
Tool-augmented large language models (LLMs), hereafter LLM agents, leverage
external tools to solve diverse tasks and interface with the real world.
However, current training practices largely rely on supervised fine-tuning
(SFT) over static trajectories or reinforcement learning (RL) on narrow tasks,
and generalize poorly beyond development settings, leading to brittleness with
new tools and unseen workflows. Because code execution reflects many structures
of real-world workflows, coding problems provide a natural basis for building
agent training environments. Motivated by this, we introduce CodeGym, a
scalable framework that synthesizes diverse, verifiable, and controllable
multi-turn tool-use environments for agent RL, enabling LLM agents to explore
and master various workflows actively. CodeGym rewrites static coding problems
into interactive environments by extracting atomic functions or logic into
callable tools, yielding verifiable tasks that span various tool-execution
workflows. Models of varying sizes and chain-of-thought configurations, trained
in CodeGym, exhibit consistent out-of-distribution generalizability; for
example, Qwen2.5-32B-Instruct achieves an absolute accuracy gain of 8.7 points
on the OOD benchmark $\tau$-Bench. These results highlight CodeGym as a step
toward scalable general-purpose RL environments that align with real-world
agent workflows.
Ссылки и действия
Дополнительные ресурсы: