UserRL: Training Interactive User-Centric Agent via Reinforcement Learning
2509.19736v1
cs.AI, cs.CL, cs.LG
2025-09-26
Авторы:
Cheng Qian, Zuxin Liu, Akshara Prabhakar, Jielin Qiu, Zhiwei Liu, Haolin Chen, Shirley Kokane, Heng Ji, Weiran Yao, Shelby Heinecke, Silvio Savarese, Caiming Xiong, Huan Wang
Резюме на русском
## Контекст
Рейнфорсментное обучение (RL) позволяет тренировать агентные модели, двигающиеся за пределами статичных бенчмаров к динамичным, многократным взаимодействиям. Однако их реальное значение заключается в возможности помогать пользователям. Диверсификация и динамика пользовательских взаимодействий создают серьезные вызовы. Мы предлагаем UserRL — универсальный фреймворк для обучения и оценки пользовательских способностей с помощью стандартизированных сред обучения (Gym) и симуляторов пользователей. Это позволяет изучить влияние различных формулировок награды и моделей пользователей на обучение.
## Метод
UserRL основывается на симуляторах пользователей для моделирования различных стилей взаимодействия. Мы изменяем награды на каждом шаге и по ходу взаимодействия, анализируя их влияние на обучение через алгоритм Gradient-Based Policy Optimization (GRPO). Мы использовали модели Qwen3 разных размеров для изучения этих эффектов. Кроме того, мы сравнили открытодоступные симуляторы (например, Qwen3-32B) с сильнейшими симуляторами (например, GPT-4o) для оценки эффективности.
## Результаты
Наши эксперименты показали, что: (i) запуск RL с холодного старта, используя только сильный симулятор, позволяет краткосрочно приобрести базовые навыки, но не достаточно для долгосрочных улучшений; (ii) целенаправленная оценка траекторий (включая изменение веса разных шагов) значительно улучшает качество обучения и эффективность взаимодействий; (iii) открытые симуляторы, несмотря на меньшую мощность, оказываются практичными и трансферируемыми для реальных сценариев. Эти находки подтверждают, что тщательно проработанные награды и симуляторы моделей пользователей являются ключевыми факторами, успешной тренировки агентов.
## Значимость
UserRL может применяться в различных областях: улучшения пользовательских систем, обучение моделей для чатботов, систем поддержки решений и т.д. Его преимущества включают в себя универсальность, легкость развертывания и эффективность. Этот фреймворк может влиять на развитие интерактивных агентов, делая их более эффективными и полезными для пользователей.
## Выводы
Мы показали, что UserRL эффективен для тренировки моделей, взаимодействующих с пользователями. Он может стать значительным шагом в развитии пользователь-центричных агентов. Мы планируем расширить фреймворк, включив более сложные модели пользователей и более сложные сценарии взаимодействия.
Abstract
Reinforcement learning (RL) has shown promise in training agentic models that
move beyond static benchmarks to engage in dynamic, multi-turn interactions.
Yet, the ultimate value of such agents lies in their ability to assist users, a
setting where diversity and dynamics of user interaction pose challenges. In
this work, we propose UserRL, a unified framework for training and evaluating
user-centric abilities through standardized gym environments paired with
simulated users. We systematically vary turn-level reward assignment and
trajectory-level score calculation to analyze how different formulations affect
learning under the GRPO algorithm. Our experiments across Qwen3 models reveal
three key findings: (i) SFT cold start is critical for unlocking initial
interaction ability and enabling sustained RL improvements; (ii) deliberate
trajectory scoring yields more efficient and effective multi-turn interactions;
and (iii) while stronger simulated users (e.g., GPT-4o) facilitates training,
open-source simulators (e.g., Qwen3-32B) remain a cost-effective and
transferable option. Together, these results highlight that careful design of
reward shaping and user simulation choice is as crucial as model scale, and
establish UserRL as a practical pathway for developing robust user-centric
agentic models. All codes and data are public for future research.
Ссылки и действия
Дополнительные ресурсы: