Efficient Multi-turn RL for GUI Agents via Decoupled Training and Adaptive Data Curation

2509.23866v1 cs.LG, cs.AI, cs.CV 2025-10-01
Авторы:

Pengxiang Li, Zechen Hu, Zirui Shang, Jingrong Wu, Yang Liu, Hui Liu, Zhi Gao, Chenrui Shi, Bofei Zhang, Zihao Zhang, Xiaochuan Shi, Zedong YU, Yuwei Wu, Xinxiao Wu, Yunde Jia, Liuyu Xiang, Zhaofeng He, Qing Li

Резюме на русском

#### Контекст Графические пользовательские интерфейсы (GUI) широко распространены в современных технологиях, обеспечивая удобство взаимодействия с компьютерами и мобильными устройствами. Однако автоматизация сложных задач, взаимодействующих с GUI, остается вызовом. Визуально-языковые модели (VLM) демонстрируют перспективы в этой области, но сталкиваются с проблемами: медленные многошаговые взаимодействия с GUI во время подготовки политики и недостаточное количество качественных взаимодействий хо AGENTUI для политического обучения. Данная работа ориентирована на решение этих проблем, обеспечивая эффективность и точность в обучении агентов для GUI-систем. #### Метод Для решения указанных проблем предлагается фреймворк Decoupled Agentic RL Training (DART). Он разделяет обучение на четыре асинхронных модуля: среда выполнения, сервис подготовки траекторий, менеджер данных и тренер. Это дизайн способствует неблокирующей связи, асинхронному обучению, подготовке траекторий на уровне роллаутов и синхронизации моделей на уровне каждого рабочего процесса. Для обеспечения эффективного обучения, вводится адаптивная схема курсации данных: (1) предварительное сборение успешных траекторий для сложных задач, (2) динамическое изменение количества роллаутов и длины траекторий в зависимости от сложности задачи, (3) обучение на высокоэнтропийных шагах для концентрации на критических решениях, (4) стабилизация обучения через усеченное важностное выборка для соответствия политик. #### Результаты Исследования проводились на OSWorld-benchmark. DART-GUI-7B показал 42.13% успешность в выполнении задач, что является 14.61% абсолютного прироста по сравнению с базовой моделью и 7.34% выше SOTA открытого кода. Эти результаты свидетельствуют о значительном улучшении производительности. Более того, DART повысил GPU-потребление на 1.6, тренировочный процесс на 1.9, а эффективность среды выполнения увеличил на 5.5. #### Значимость Предлагаемый подход может быть применен в различных сценариях, где требуется автоматизация задач, взаимодействующих с GUI. Он обеспечивает высокую эффективность обучения, уменьшает время роллаута, улучшает качество решений и способствует устойчивости политик. Эти достижения открывают широкие возможности для развития систем агентного RL в области взаимодействия с GUI. #### Выводы Основные достижения: эффективное решение проблем медленных взаимодействий и недостатка качественных данных в обучении RL для GUI. Направления будущих исследований: улучшение адаптивности курсации данных, расширение DART на другие типы интерактивных систем и развитие новых методов обучения в многошаговых

Abstract

Vision-language model (VLM) based GUI agents show promise for automating complex desktop and mobile tasks, but face significant challenges in applying reinforcement learning (RL): (1) slow multi-turn interactions with GUI environments for policy rollout, and (2) insufficient high-quality agent-environment interactions for policy learning. To address these challenges, we propose DART, a Decoupled Agentic RL Training framework for GUI agents, which coordinates heterogeneous modules in a highly decoupled manner. DART separates the training system into four asynchronous modules: environment cluster, rollout service, data manager, and trainer. This design enables non-blocking communication, asynchronous training, rollout-wise trajectory sampling, and per-worker model synchronization, significantly improving the system efficiency: 1.6*GPU utilization for rollout, 1.9* training throughput, and 5.5* environment utilization. To facilitate effective learning from abundant samples, we introduce an adaptive data curation scheme: (1) pre-collecting successful trajectories for challenging tasks to supplement sparse success in online sampling; (2) dynamically adjusting rollout numbers and trajectory lengths based on task difficulty; (3) training selectively on high-entropy steps to prioritize critical decisions; (4) stabilizing learning via truncated importance sampling for policy mismatch between policy rollout and updating. On the OSWorld benchmark, DART-GUI-7B achieves a 42.13% task success rate, a 14.61% absolute gain over the base model, and 7.34% higher than open-source SOTA. We will fully open-source our training framework, data, and model checkpoints via computer-use-agents.github.io/dart-gui, which we believe is a timely contribution to the open-source community of agentic RL training.

Ссылки и действия