Generalizable End-to-End Tool-Use RL with Synthetic CodeGym

2509.17325v1 cs.LG, cs.AI, cs.CL 2025-09-24
Авторы:

Weihua Du, Hailei Gong, Zhan Ling, Kang Liu, Lingfeng Shen, Xuesong Yao, Yufei Xu, Dingyuan Shi, Yiming Yang, Jiecao Chen

Резюме на русском

#### Контекст Одна из основных целей современной искусственной интеллектуальной системы — достижение границ заданного рабочего процесса. Несмотря на то, что существуют инструменты с искусственным интеллектом (LLMs), которые могут использоваться для выполнения различных задач в реальном мире, существуют проблемы, связанные с нехваткой гибкости в подходе. Например, существующие методы основываются на процедурах супервизованного оптимизации и расширения технических решений. Однако эти подходы ограничены рабочими процессами, в которых они были тренированы, и не могут обеспечивать общее понимание различных ситуаций. Кроме того, использование кода для примера демонстрирует многочисленные структуры в реальных рабочих процессах, что позволяет использовать его для развития оптимального алгоритма. Таким образом, целью этого исследования является создание нейросетевой системы, которая может использоваться для решения различных задач с помощью синтезированных скриптов. #### Метод Для решения этой проблемы предлагается методология, основанная на создании и использовании синтезированных скриптов. Основной идеей является изменение статических кодов на интерактивные среды, где можно активно испытать и оптимизировать рабочие процессы. Для этого был разработан фреймворк, названный CodeGym. Он состоит из двух основных элементов: (1) — создания верифицируемых задач с различными структурами рабочих процессов, и (2) — создания интерактивных сред для тестирования и оценки работы моделей. Это позволяет модели учиться, используя различные типы задач и ситуаций, что улучшает их гибкость и общую производительность. #### Результаты Проведено несколько экспериментов, в которых тестировались различные модели AI на синтезированных задачах. Для этого были использованы данные, полученные в рамках CodeGym, которые включали в себя различные типы синтезированных скриптов. На основе этих задач были проведены эксперименты, которые показали, что модели, обученные на CodeGym, показывают значительное улучшение в общей производительности и гибкости. Например, Qwen2.5-32B-Instruct показала абсолютный прирост точности в 8.7 баллов на OOD бенчмарке $\tau$-Bench. Эти результаты позволяют сделать вывод, что CodeGym является эффективным фреймворком для развития общего понимания различных рабочих процессов. #### Значимость CodeGym может быть использован в различных областях, где требуется улучшение гибкости и скорости решения задач. Он позволяет создавать интерактивные среды для тестирования и оценки работы моделей, что позволяет улучшать их возможности в рабочих процессах. Это может быть применено в задачах, где необхо

Abstract

Tool-augmented large language models (LLMs), hereafter LLM agents, leverage external tools to solve diverse tasks and interface with the real world. However, current training practices largely rely on supervised fine-tuning (SFT) over static trajectories or reinforcement learning (RL) on narrow tasks, and generalize poorly beyond development settings, leading to brittleness with new tools and unseen workflows. Because code execution reflects many structures of real-world workflows, coding problems provide a natural basis for building agent training environments. Motivated by this, we introduce CodeGym, a scalable framework that synthesizes diverse, verifiable, and controllable multi-turn tool-use environments for agent RL, enabling LLM agents to explore and master various workflows actively. CodeGym rewrites static coding problems into interactive environments by extracting atomic functions or logic into callable tools, yielding verifiable tasks that span various tool-execution workflows. Models of varying sizes and chain-of-thought configurations, trained in CodeGym, exhibit consistent out-of-distribution generalizability; for example, Qwen2.5-32B-Instruct achieves an absolute accuracy gain of 8.7 points on the OOD benchmark $\tau$-Bench. These results highlight CodeGym as a step toward scalable general-purpose RL environments that align with real-world agent workflows.

Ссылки и действия