UserRL: Training Interactive User-Centric Agent via Reinforcement Learning

2509.19736v1 cs.AI, cs.CL, cs.LG 2025-09-26
Авторы:

Cheng Qian, Zuxin Liu, Akshara Prabhakar, Jielin Qiu, Zhiwei Liu, Haolin Chen, Shirley Kokane, Heng Ji, Weiran Yao, Shelby Heinecke, Silvio Savarese, Caiming Xiong, Huan Wang

Резюме на русском

## Контекст Рейнфорсментное обучение (RL) позволяет тренировать агентные модели, двигающиеся за пределами статичных бенчмаров к динамичным, многократным взаимодействиям. Однако их реальное значение заключается в возможности помогать пользователям. Диверсификация и динамика пользовательских взаимодействий создают серьезные вызовы. Мы предлагаем UserRL — универсальный фреймворк для обучения и оценки пользовательских способностей с помощью стандартизированных сред обучения (Gym) и симуляторов пользователей. Это позволяет изучить влияние различных формулировок награды и моделей пользователей на обучение. ## Метод UserRL основывается на симуляторах пользователей для моделирования различных стилей взаимодействия. Мы изменяем награды на каждом шаге и по ходу взаимодействия, анализируя их влияние на обучение через алгоритм Gradient-Based Policy Optimization (GRPO). Мы использовали модели Qwen3 разных размеров для изучения этих эффектов. Кроме того, мы сравнили открытодоступные симуляторы (например, Qwen3-32B) с сильнейшими симуляторами (например, GPT-4o) для оценки эффективности. ## Результаты Наши эксперименты показали, что: (i) запуск RL с холодного старта, используя только сильный симулятор, позволяет краткосрочно приобрести базовые навыки, но не достаточно для долгосрочных улучшений; (ii) целенаправленная оценка траекторий (включая изменение веса разных шагов) значительно улучшает качество обучения и эффективность взаимодействий; (iii) открытые симуляторы, несмотря на меньшую мощность, оказываются практичными и трансферируемыми для реальных сценариев. Эти находки подтверждают, что тщательно проработанные награды и симуляторы моделей пользователей являются ключевыми факторами, успешной тренировки агентов. ## Значимость UserRL может применяться в различных областях: улучшения пользовательских систем, обучение моделей для чатботов, систем поддержки решений и т.д. Его преимущества включают в себя универсальность, легкость развертывания и эффективность. Этот фреймворк может влиять на развитие интерактивных агентов, делая их более эффективными и полезными для пользователей. ## Выводы Мы показали, что UserRL эффективен для тренировки моделей, взаимодействующих с пользователями. Он может стать значительным шагом в развитии пользователь-центричных агентов. Мы планируем расширить фреймворк, включив более сложные модели пользователей и более сложные сценарии взаимодействия.

Abstract

Reinforcement learning (RL) has shown promise in training agentic models that move beyond static benchmarks to engage in dynamic, multi-turn interactions. Yet, the ultimate value of such agents lies in their ability to assist users, a setting where diversity and dynamics of user interaction pose challenges. In this work, we propose UserRL, a unified framework for training and evaluating user-centric abilities through standardized gym environments paired with simulated users. We systematically vary turn-level reward assignment and trajectory-level score calculation to analyze how different formulations affect learning under the GRPO algorithm. Our experiments across Qwen3 models reveal three key findings: (i) SFT cold start is critical for unlocking initial interaction ability and enabling sustained RL improvements; (ii) deliberate trajectory scoring yields more efficient and effective multi-turn interactions; and (iii) while stronger simulated users (e.g., GPT-4o) facilitates training, open-source simulators (e.g., Qwen3-32B) remain a cost-effective and transferable option. Together, these results highlight that careful design of reward shaping and user simulation choice is as crucial as model scale, and establish UserRL as a practical pathway for developing robust user-centric agentic models. All codes and data are public for future research.

Ссылки и действия