AgentGym-RL: Training LLM Agents for Long-Horizon Decision Making through Multi-Turn Reinforcement Learning
2509.08755v1
cs.LG, cs.AI, cs.CL
2025-09-12
Авторы:
Zhiheng Xi, Jixuan Huang, Chenyang Liao, Baodai Huang, Honglin Guo, Jiaqi Liu, Rui Zheng, Junjie Ye, Jiazheng Zhang, Wenxiang Chen, Wei He, Yiwen Ding, Guanyu Li, Zehui Chen, Zhengyin Du, Xuesong Yao, Yufei Xu, Jiecao Chen, Tao Gui, Zuxuan Wu, Qi Zhang, Xuanjing Huang, Yu-Gang Jiang
Резюме на русском
## Контекст
Построение автономных агентов с использованием глубоких нейросетевых моделей для решения сложных, реальных задач является ярким направлением современного искусственного интеллекта. Агенты должны быть способны принимать ряд последовательных решений, основываясь на интерактивном обучении в различных средах. Однако существует проблема в отсутствии универсального фреймворка, который позволял бы эффективно обучать такие агенты с нуля, исключая зависимость от супервизированных методов (SFT), и используя разнообразные и реалистичные среды. Этот вопрос требует решения для развития более широкой и динамичной практики обучения агентов.
## Метод
AgentGym-RL представляет собой новую модель для обучения агентов с использованием многообразных сред реальной жизни, включая текстовые трансформации, игровые сценарии и другие реалистичные задачи. Фреймворк использует модульную и расширяемую архитектуру, которая поддерживает широкий спектр методов машинного обучения, включая несколько вариантов RL-алгоритмов. Основоположным элементом является ScalingInter-RL, подход, который управляет сбалансированной оценкой работы агента в процессе работы. Он начинает с высокого уровня эксплуатации (ограниченных интеракций), чтобы улучшить локальную оптимизацию, и плавно переходит к более широкому эксплорационному подходу, чтобы стимулировать разнообразные стратегии решения задач.
## Результаты
Мы провели широкомасштабные эксперименты по проверке стабильности и эффективности AgentGym-RL. Наши агенты показали не только схожие или лучшие результаты по сравнению с коммерческими моделями на 27 различных задачах, но и доказали их устойчивость и надежность в различных сложных сценариях. Эти результаты подтверждают жизнеспособность применяемости AgentGym-RL для решения задач, требующих многократных интерактивных решений.
## Значимость
AgentGym-RL может использоваться в различных приложениях, включая интеллектуальные помощники, игры, системы управления, а также в области автоматизации решения реальных задач. Одним из основных преимуществ является то, что фреймворк не зависит от супервизированных методов обучения, что позволяет ему быть более универсальным и гибким. Это может способствовать развитию новых стратегий развития интеллектуальных агентов.
## Выводы
AgentGym-RL демонстрирует перспективу в развитии систем обучения агентов для решения сложных задач. Мы выделяем основные выводы, отражающие создаваемую эффективность и гибкость фреймворка, и предлагаем ему посвятить будущие исследования для расширения спектра применений и улучшения точности решени
Abstract
Developing autonomous LLM agents capable of making a series of intelligent
decisions to solve complex, real-world tasks is a fast-evolving frontier. Like
human cognitive development, agents are expected to acquire knowledge and
skills through exploration and interaction with the environment. Despite
advances, the community still lacks a unified, interactive reinforcement
learning (RL) framework that can effectively train such agents from scratch --
without relying on supervised fine-tuning (SFT) -- across diverse and realistic
environments. To bridge this gap, we introduce AgentGym-RL, a new framework to
train LLM agents for multi-turn interactive decision-making through RL. The
framework features a modular and decoupled architecture, ensuring high
flexibility and extensibility. It encompasses a wide variety of real-world
scenarios, and supports mainstream RL algorithms. Furthermore, we propose
ScalingInter-RL, a training approach designed for exploration-exploitation
balance and stable RL optimization. In early stages, it emphasizes exploitation
by restricting the number of interactions, and gradually shifts towards
exploration with larger horizons to encourage diverse problem-solving
strategies. In this way, the agent develops more diverse behaviors and is less
prone to collapse under long horizons. We perform extensive experiments to
validate the stability and effectiveness of both the AgentGym-RL framework and
the ScalingInter-RL approach. Our agents match or surpass commercial models on
27 tasks across diverse environments. We offer key insights and will
open-source the complete AgentGym-RL framework -- including code and datasets
-- to empower the research community in developing the next generation of
intelligent agents.
Ссылки и действия
Дополнительные ресурсы: