Uncertainty-Aware GUI Agent: Adaptive Perception through Component Recommendation and Human-in-the-Loop Refinement

2508.04025v1 cs.AI 2025-08-09

Авторы:

Chao Hao, Shuai Wang, Kaiwen Zhou

Резюме на русском

--- title: КОНТЕКСТ И ПРОБЛЕМАТИКА --- ### message # КОНТЕКСТ И ПРОБЛЕМАТИКА Графические интерфейсы пользователя (GUI) являются ключевым элементом взаимодействия человека с мобильными приложениями. Несмотря на успехи в автоматизации задач с помощью GUI-агентов, существуют существенные проблемы, связанные с избыточностью входных данных и неоднозначностью принятия решений. Традиционные подходы к GUI-автоматизации часто борются с избыточностью информации, поступающей с экранов мобильных устройств, что приводит к перегрузке данных и ухудшению эффективности. Кроме того, неоднозначность задач и сложность рационального выбора действий в сложных сценариях делают процесс навигации по GUI менее надежным. Проблема управления GUI-агентами в условиях неопределенности требует разработки методологий, которые смогут эффективно управлять сложностью интерфейсов и обеспечить высокую точность в исполнении задач. Одна из ключевых проблем — это перцептивная неопределенность, возникающая из-за избытка информации и шума в поступающих данных. Другая проблема — это решательская неопределенность, связанная с неоднозначностью задач и сложностью принятия решений в ситуациях, требующих сложного рассуждения. Мотивация данного исследования заключается в том, чтобы создать GUI-агента, способного адаптироваться к сложностям интерфейсов и обеспечить более точное взаимодействие с пользователем. Это требует разработки механизмов, которые могут снизить избыточность информации и обеспечить вовлеченность пользователя в решение сложных ситуаций, чтобы улучшить качество автоматизации GUI-задач. ## ПРЕДЛОЖЕННЫЙ МЕТОД В данной работе представлен **RecAgent**, GUI-агент, который использует адаптивное восприятие для решения проблем перцептивной и решательской неопределенности. Решение состоит из двух основных компонентов: механизма рекомендации компонентов и модуля взаимодействия с пользователем. Механизм рекомендации компонентов работает на основе выявления наиболее релевантных элементов интерфейса, что позволяет снизить избыточность входных данных и сосредоточиться на ключевых элементах, необходимых для выполнения задачи. Этот механизм помогает снизить перцептивную неопределенность, обрабатывая только те данные, которые имеют реальное значение для выполнения действий. Модуль взаимодействия с пользователем, или "human-in-the-loop", используется для решения проблем решательской неопределенности. В случаях, когда задача является неоднозначной или требует сложного рассуждения, агент запрашивает обратную связь у пользователя. Это позволяет агенту принимать более осведомленные и направленные решения, основываясь на подтверждении пользователя. Объединение этих компонентов в единый фреймворк позволяет RecAgent активно снижать сложность входных данных и реагировать на ситуации высокой неопределенности путем использования обратной связи от пользователя. Таким образом, агент становится более адаптивным и эффективным в выполнении задач. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для оценки эффективности RecAgent авторы представили набор данных под названием **ComplexAction**, который содержит сложные сценарии GUI-навигации. Этот набор данных был разработкан специально для тестирования успешности выполнения одноступенчатых действий в сложных ситуациях. В ходе экспериментов RecAgent демонстрирует высокую эффективность в снижении перцептивной и решательской неопределенности. Агент показал высокие показатели успешности выполнения действий в сложных сценариях, превысив базовые модели благодаря адаптивному механизму рекомендаций и взаимодействию с пользователем. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ RecAgent имеет широкие возможности применения в областях, требующих автоматизации GUI-задач, таких как мобильные тестирования, автоматизация повторяющихся действий и повышение доступности для пользователей с ограниченными возможностями. Преимущества метода заключаются в уменьшении сложности входных данных, улучшении точности выполнения задач и обеспечении более надежного взаимодействия с пользователем. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В работе были достигнуты значительные результаты в адресации проблем перцептивной и решательской неопределенности в GUI-навигации. Будущие исследования могут фокусироваться на дальнейшем улучшении алгоритмов рекомендации и взаимодействия с пользователем, а также на расширении области применения таких агентов в реальных сценариях.

Abstract

Graphical user interface (GUI) agents have shown promise in automating mobile tasks but still struggle with input redundancy and decision ambiguity. In this paper, we present \textbf{RecAgent}, an uncertainty-aware agent that addresses these issues through adaptive perception. We distinguish two types of uncertainty in GUI navigation: (1) perceptual uncertainty, caused by input redundancy and noise from comprehensive screen information, and (2) decision uncertainty, arising from ambiguous tasks and complex reasoning. To reduce perceptual uncertainty, RecAgent employs a component recommendation mechanism that identifies and focuses on the most relevant UI elements. For decision uncertainty, it uses an interactive module to request user feedback in ambiguous situations, enabling intent-aware decisions. These components are integrated into a unified framework that proactively reduces input complexity and reacts to high-uncertainty cases via human-in-the-loop refinement. Additionally, we propose a dataset called \textbf{ComplexAction} to evaluate the success rate of GUI agents in executing specified single-step actions within complex scenarios. Extensive experiments validate the effectiveness of our approach. The dataset and code will be available at https://github.com/Fanye12/RecAgent.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Uncertainty-Aware GUI Agent: Adaptive Perception through Component Recommendation and Human-in-the-Loop Refinement

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Executable Governance for AI: Translating Policies into Rules Using LLMs

Solving LLM Repetition Problem in Production: A Comprehensive Study of Multiple ...

BiTAgent: A Task-Aware Modular Framework for Bidirectional Coupling between Mult...

SlideGen: Collaborative Multimodal Agents for Scientific Slide Generation

GTM: Simulating the World of Tools for AI Agents

Навигация