SWIRL: A Staged Workflow for Interleaved Reinforcement Learning in Mobile GUI Control
2508.20018v1
cs.AI, cs.CL, cs.CV, cs.MA
2025-08-29
Авторы:
Quanfeng Lu, Zhantao Ma, Shuai Zhong, Jin Wang, Dahai Yu, Michael K. Ng, Ping Luo
Резюме на русском
## Контекст
Область исследований, связанная с mobile GUI control (контролем пользовательских интерфейсов мобильных приложений), получила значительный интерес в последние годы, особенно в связи с развитием крупных моделей визуального языка (LVLMs) и их возможностями в области естественных языков. Несмотря на этот прогресс, существующие методы либо ограничены в своих возможностях, либо неэффективны в условиях реального времени. Это приводит к необходимости разработки более устойчивых и мощных систем, которые могут легко переключаться между высокоуровневыми и низкоуровневыми задачами. Целью данной работы является разработка методологии, которая могла бы оптимизировать многоагентные системы, обеспечивая их эффективную координацию и устойчивость в различных сценариях.
## Метод
SWIRL (Staged Workflow for Interleaved Reinforcement Learning) представляет собой инновационный подход к обучению многоагентных систем. Он преобразует задачи многоагентного обучения в последовательность задач обучения одного агента. В этой модели каждый агент обучается по очереди, при этом другие агенты остаются неизменными. Этот подход обеспечивает стабильность обучения и позволяет достичь эффективного взаимодействия между агентами. Для гарантии качества и корректности решений в SWIRL внедрены такие теоретические примитивы, как шаг защиты обучения, теорема о монотонном улучшении и гарантии на возврат при оптимизации. Метод также включает в себя Navigator, который преобразует естественный язык и контекст экрана в структурированные планы, и Interactor, который реализует эти планы на уровне атомарных действий.
## Результаты
SWIRL протестирован на широком спектре задач, включая обработку естественного языка и контроль низкоуровневых элементов GUI. Обширные эксперименты показали, что SWIRL превосходит существующие методы в выполнении задач, обеспечивая более высокую точность и устойчивость в решении задач. В частности, на мобильных GUI бенчмарках SWIRL демонстрирует улучшение производительности, уменьшая количество ошибок и увеличивая скорость выполнения задач. Этот подход также продемонстрировал свою эффективность в задачах многоагентного математического разумания, подтверждая широкий потенциал SWIRL как основы для развития многоагентных систем.
## Значимость
Помимо мобильных GUI-систем, SWIRL может быть применен в таких областях, как управление роботами, системы автоматизированного обучения и обработка изображений. Особенностью SWIRL является его гибкость и мощь, позволяющие применять его в различных контекстах. Этот подход обеспечивает эффективность, стабильность и гарантированные результаты в различных зада
Abstract
The rapid advancement of large vision language models (LVLMs) and agent
systems has heightened interest in mobile GUI agents that can reliably
translate natural language into interface operations. Existing single-agent
approaches, however, remain limited by structural constraints. Although
multi-agent systems naturally decouple different competencies, recent progress
in multi-agent reinforcement learning (MARL) has often been hindered by
inefficiency and remains incompatible with current LVLM architectures. To
address these challenges, we introduce SWIRL, a staged workflow for interleaved
reinforcement learning designed for multi-agent systems. SWIRL reformulates
MARL into a sequence of single-agent reinforcement learning tasks, updating one
agent at a time while keeping the others fixed. This formulation enables stable
training and promotes efficient coordination across agents. Theoretically, we
provide a stepwise safety bound, a cross-round monotonic improvement theorem,
and convergence guarantees on return, ensuring robust and principled
optimization. In application to mobile GUI control, SWIRL instantiates a
Navigator that converts language and screen context into structured plans, and
an Interactor that grounds these plans into executable atomic actions.
Extensive experiments demonstrate superior performance on both high-level and
low-level GUI benchmarks. Beyond GUI tasks, SWIRL also demonstrates strong
capability in multi-agent mathematical reasoning, underscoring its potential as
a general framework for developing efficient and robust multi-agent systems.