Uncertainty-Aware GUI Agent: Adaptive Perception through Component Recommendation and Human-in-the-Loop Refinement
2508.04025v1
cs.AI
2025-08-09
Авторы:
Chao Hao, Shuai Wang, Kaiwen Zhou
Резюме на русском
---
title: КОНТЕКСТ И ПРОБЛЕМАТИКА
---
### message
# КОНТЕКСТ И ПРОБЛЕМАТИКА
Графические интерфейсы пользователя (GUI) являются ключевым элементом взаимодействия человека с мобильными приложениями. Несмотря на успехи в автоматизации задач с помощью GUI-агентов, существуют существенные проблемы, связанные с избыточностью входных данных и неоднозначностью принятия решений. Традиционные подходы к GUI-автоматизации часто борются с избыточностью информации, поступающей с экранов мобильных устройств, что приводит к перегрузке данных и ухудшению эффективности. Кроме того, неоднозначность задач и сложность рационального выбора действий в сложных сценариях делают процесс навигации по GUI менее надежным.
Проблема управления GUI-агентами в условиях неопределенности требует разработки методологий, которые смогут эффективно управлять сложностью интерфейсов и обеспечить высокую точность в исполнении задач. Одна из ключевых проблем — это перцептивная неопределенность, возникающая из-за избытка информации и шума в поступающих данных. Другая проблема — это решательская неопределенность, связанная с неоднозначностью задач и сложностью принятия решений в ситуациях, требующих сложного рассуждения.
Мотивация данного исследования заключается в том, чтобы создать GUI-агента, способного адаптироваться к сложностям интерфейсов и обеспечить более точное взаимодействие с пользователем. Это требует разработки механизмов, которые могут снизить избыточность информации и обеспечить вовлеченность пользователя в решение сложных ситуаций, чтобы улучшить качество автоматизации GUI-задач.
## ПРЕДЛОЖЕННЫЙ МЕТОД
В данной работе представлен **RecAgent**, GUI-агент, который использует адаптивное восприятие для решения проблем перцептивной и решательской неопределенности. Решение состоит из двух основных компонентов: механизма рекомендации компонентов и модуля взаимодействия с пользователем.
Механизм рекомендации компонентов работает на основе выявления наиболее релевантных элементов интерфейса, что позволяет снизить избыточность входных данных и сосредоточиться на ключевых элементах, необходимых для выполнения задачи. Этот механизм помогает снизить перцептивную неопределенность, обрабатывая только те данные, которые имеют реальное значение для выполнения действий.
Модуль взаимодействия с пользователем, или "human-in-the-loop", используется для решения проблем решательской неопределенности. В случаях, когда задача является неоднозначной или требует сложного рассуждения, агент запрашивает обратную связь у пользователя. Это позволяет агенту принимать более осведомленные и направленные решения, основываясь на подтверждении пользователя.
Объединение этих компонентов в единый фреймворк позволяет RecAgent активно снижать сложность входных данных и реагировать на ситуации высокой неопределенности путем использования обратной связи от пользователя. Таким образом, агент становится более адаптивным и эффективным в выполнении задач.
## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ
Для оценки эффективности RecAgent авторы представили набор данных под названием **ComplexAction**, который содержит сложные сценарии GUI-навигации. Этот набор данных был разработкан специально для тестирования успешности выполнения одноступенчатых действий в сложных ситуациях.
В ходе экспериментов RecAgent демонстрирует высокую эффективность в снижении перцептивной и решательской неопределенности. Агент показал высокие показатели успешности выполнения действий в сложных сценариях, превысив базовые модели благодаря адаптивному механизму рекомендаций и взаимодействию с пользователем.
## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ
RecAgent имеет широкие возможности применения в областях, требующих автоматизации GUI-задач, таких как мобильные тестирования, автоматизация повторяющихся действий и повышение доступности для пользователей с ограниченными возможностями. Преимущества метода заключаются в уменьшении сложности входных данных, улучшении точности выполнения задач и обеспечении более надежного взаимодействия с пользователем.
## ВЫВОДЫ И ПЕРСПЕКТИВЫ
В работе были достигнуты значительные результаты в адресации проблем перцептивной и решательской неопределенности в GUI-навигации. Будущие исследования могут фокусироваться на дальнейшем улучшении алгоритмов рекомендации и взаимодействия с пользователем, а также на расширении области применения таких агентов в реальных сценариях.
Abstract
Graphical user interface (GUI) agents have shown promise in automating mobile
tasks but still struggle with input redundancy and decision ambiguity. In this
paper, we present \textbf{RecAgent}, an uncertainty-aware agent that addresses
these issues through adaptive perception. We distinguish two types of
uncertainty in GUI navigation: (1) perceptual uncertainty, caused by input
redundancy and noise from comprehensive screen information, and (2) decision
uncertainty, arising from ambiguous tasks and complex reasoning. To reduce
perceptual uncertainty, RecAgent employs a component recommendation mechanism
that identifies and focuses on the most relevant UI elements. For decision
uncertainty, it uses an interactive module to request user feedback in
ambiguous situations, enabling intent-aware decisions. These components are
integrated into a unified framework that proactively reduces input complexity
and reacts to high-uncertainty cases via human-in-the-loop refinement.
Additionally, we propose a dataset called \textbf{ComplexAction} to evaluate
the success rate of GUI agents in executing specified single-step actions
within complex scenarios. Extensive experiments validate the effectiveness of
our approach. The dataset and code will be available at
https://github.com/Fanye12/RecAgent.
Ссылки и действия
Дополнительные ресурсы: