Efficient Multi-turn RL for GUI Agents via Decoupled Training and Adaptive Data Curation
2509.23866v1
cs.LG, cs.AI, cs.CV
2025-10-01
Авторы:
Pengxiang Li, Zechen Hu, Zirui Shang, Jingrong Wu, Yang Liu, Hui Liu, Zhi Gao, Chenrui Shi, Bofei Zhang, Zihao Zhang, Xiaochuan Shi, Zedong YU, Yuwei Wu, Xinxiao Wu, Yunde Jia, Liuyu Xiang, Zhaofeng He, Qing Li
Резюме на русском
#### Контекст
Графические пользовательские интерфейсы (GUI) широко распространены в современных технологиях, обеспечивая удобство взаимодействия с компьютерами и мобильными устройствами. Однако автоматизация сложных задач, взаимодействующих с GUI, остается вызовом. Визуально-языковые модели (VLM) демонстрируют перспективы в этой области, но сталкиваются с проблемами: медленные многошаговые взаимодействия с GUI во время подготовки политики и недостаточное количество качественных взаимодействий хо AGENTUI для политического обучения. Данная работа ориентирована на решение этих проблем, обеспечивая эффективность и точность в обучении агентов для GUI-систем.
#### Метод
Для решения указанных проблем предлагается фреймворк Decoupled Agentic RL Training (DART). Он разделяет обучение на четыре асинхронных модуля: среда выполнения, сервис подготовки траекторий, менеджер данных и тренер. Это дизайн способствует неблокирующей связи, асинхронному обучению, подготовке траекторий на уровне роллаутов и синхронизации моделей на уровне каждого рабочего процесса. Для обеспечения эффективного обучения, вводится адаптивная схема курсации данных: (1) предварительное сборение успешных траекторий для сложных задач, (2) динамическое изменение количества роллаутов и длины траекторий в зависимости от сложности задачи, (3) обучение на высокоэнтропийных шагах для концентрации на критических решениях, (4) стабилизация обучения через усеченное важностное выборка для соответствия политик.
#### Результаты
Исследования проводились на OSWorld-benchmark. DART-GUI-7B показал 42.13% успешность в выполнении задач, что является 14.61% абсолютного прироста по сравнению с базовой моделью и 7.34% выше SOTA открытого кода. Эти результаты свидетельствуют о значительном улучшении производительности. Более того, DART повысил GPU-потребление на 1.6, тренировочный процесс на 1.9, а эффективность среды выполнения увеличил на 5.5.
#### Значимость
Предлагаемый подход может быть применен в различных сценариях, где требуется автоматизация задач, взаимодействующих с GUI. Он обеспечивает высокую эффективность обучения, уменьшает время роллаута, улучшает качество решений и способствует устойчивости политик. Эти достижения открывают широкие возможности для развития систем агентного RL в области взаимодействия с GUI.
#### Выводы
Основные достижения: эффективное решение проблем медленных взаимодействий и недостатка качественных данных в обучении RL для GUI. Направления будущих исследований: улучшение адаптивности курсации данных, расширение DART на другие типы интерактивных систем и развитие новых методов обучения в многошаговых
Abstract
Vision-language model (VLM) based GUI agents show promise for automating
complex desktop and mobile tasks, but face significant challenges in applying
reinforcement learning (RL): (1) slow multi-turn interactions with GUI
environments for policy rollout, and (2) insufficient high-quality
agent-environment interactions for policy learning. To address these
challenges, we propose DART, a Decoupled Agentic RL Training framework for GUI
agents, which coordinates heterogeneous modules in a highly decoupled manner.
DART separates the training system into four asynchronous modules: environment
cluster, rollout service, data manager, and trainer. This design enables
non-blocking communication, asynchronous training, rollout-wise trajectory
sampling, and per-worker model synchronization, significantly improving the
system efficiency: 1.6*GPU utilization for rollout, 1.9* training throughput,
and 5.5* environment utilization. To facilitate effective learning from
abundant samples, we introduce an adaptive data curation scheme: (1)
pre-collecting successful trajectories for challenging tasks to supplement
sparse success in online sampling; (2) dynamically adjusting rollout numbers
and trajectory lengths based on task difficulty; (3) training selectively on
high-entropy steps to prioritize critical decisions; (4) stabilizing learning
via truncated importance sampling for policy mismatch between policy rollout
and updating. On the OSWorld benchmark, DART-GUI-7B achieves a 42.13% task
success rate, a 14.61% absolute gain over the base model, and 7.34% higher than
open-source SOTA. We will fully open-source our training framework, data, and
model checkpoints via computer-use-agents.github.io/dart-gui, which we believe
is a timely contribution to the open-source community of agentic RL training.
Ссылки и действия
Дополнительные ресурсы: