UIPro: Unleashing Superior Interaction Capability For GUI Agents

2509.17328v1 cs.CV, cs.HC 2025-09-24
Авторы:

Hongxin Li, Jingran Su, Jingfan Chen, Zheng Ju, Yuntao Chen, Qing Li, Zhaoxiang Zhang

Резюме на русском

## Контекст Графические пользовательские интерфейсы (GUI) широко используются в современных технологиях и требуют сложных интерактивных механизмов для эффективного взаимодействия. Автоматизация процессов, взаимодействия с GUI и создание грамотных агентов для этих задач являются ключевыми задачами в области машинного обучения и искусственного интеллекта. Однако существующие методы сталкиваются с ограниченными сценариями, недостаточным размером данных и хетерогенностью пространств действий. Эти факторы существенно сковывают возможности создания общих агентов GUI, которые могли бы оперировать в различных средах и случаях. Мотивация заключается в разработке универсальной системы, которая может выполнять различные задачи взаимодействия с GUI, обеспечивая унифицированное понимание и решение. ## Метод "UIPro" является разработанным агентом GUI, обученным с использованием обширного набора данных, включающих 20.6 миллионов задач по пониманию GUI. Этот набор данных обеспечивает сильную возможность понимания GUI, которая является ключевой для развития задач, основанных на взаимодействии с GUI. Для решения проблемы хетерогенности пространств действий была предложена архитектура, позволяющая объединить различные данные задач в единое пространство действий. Это позволяет агенту обучаться в условиях разнообразных сценариев и задач. Для тренировки и оценки использовалось широкое количество многофункциональных и многоплатформенных данных, которые обеспечивают рост гибкости и обобщаемости агента. ## Результаты Набор экспериментов был проведен на различных GUI-задачах, включающих понимание интерфейсов, планирование действий и выполнение задач в различных средах. Результаты показали, что UIPro превосходит другие методы по многим показателям, включая точность понимания и корректность выполнения задач. Данные результаты были получены на разных платформах и сценариях, что подтверждает универсальность и эффективность предложенной модели. ## Значимость Предложенная модель имеет широкие применения в области автоматизации GUI, реализации систем автоматического взаимодействия и улучшения интерактивных процессов. Основные преимущества UIPro заключаются в универсальной архитектуре, обеспечивающей гибкость и мощь обработки различных типов задач. Это может привести к повышению эффективности в различных сферах применения, включая технологии помощников, управления и диагностику. ## Выводы Результаты показали, что UIPro является мощным инструментом для решения задач взаимодействия с GUI и может значительно повысить эффективность в различных сценариях примен

Abstract

Building autonomous agents that perceive and operate graphical user interfaces (GUIs) like humans has long been a vision in the field of artificial intelligence. Central to these agents is the capability for GUI interaction, which involves GUI understanding and planning capabilities. Existing methods have tried developing GUI agents based on the multi-modal comprehension ability of vision-language models (VLMs). However, the limited scenario, insufficient size, and heterogeneous action spaces hinder the progress of building generalist GUI agents. To resolve these issues, this paper proposes \textbf{UIPro}, a novel generalist GUI agent trained with extensive multi-platform and multi-task GUI interaction data, coupled with a unified action space. We first curate a comprehensive dataset encompassing 20.6 million GUI understanding tasks to pre-train UIPro, granting it a strong GUI grounding capability, which is key to downstream GUI agent tasks. Subsequently, we establish a unified action space to harmonize heterogeneous GUI agent task datasets and produce a merged dataset to foster the action prediction ability of UIPro via continued fine-tuning. Experimental results demonstrate UIPro's superior performance across multiple GUI task benchmarks on various platforms, highlighting the effectiveness of our approach.

Ссылки и действия