See, Think, Act: Teaching Multimodal Agents to Effectively Interact with GUI by Identifying Toggles
2509.13615v1
cs.AI, cs.CL, cs.HC
2025-09-19
Авторы:
Zongru Wu, Rui Mao, Zhiyuan Tian, Pengzhou Cheng, Tianjie Ju, Zheng Wu, Lingzhong Dong, Haiyue Sheng, Zhuosheng Zhang, Gongshen Liu
Резюме на русском
#### Контекст
Графические пользовательские интерфейсы (GUI) широко используются в самых разных областях, от мобильных приложений до рабочих станций и устройств смарт-технологий. Многие задачи в этих системах требуют управления тогглами (переключателями) в GUI, чтобы выполнять конкретные действия. Однако взаимодействие с такими элементами часто представляет собой сложность для роботов и многомодальных агентов. Существующие подходы часто страдают от непоследовательности и неточности при выполнении команд, связанных с переключением состояний. Это ставит перед исследователями задачу развития более надежных методов для улучшения взаимодействия с GUI в рамках унифицированных решений.
#### Метод
В ходе работы была разработана методология State-aware Reasoning (StaR), которая добавляет уровень наблюдения и оценки состояний в обучение многомодальных агентов. Эта методика разделяет процесс на три этапа: **Образец (See)**, **Анализ (Think)** и **Действие (Act)**. Используя современные методы машинного обучения и глубоких нейронных сетей, StaR оценивает текущее состояние элемента GUI, анализирует инструкцию и выполняет точный переключение по мере необходимости. Архитектура отличается своей модульностью и интеграцией разных моделей, что позволяет улучшить общую надежность и точность выполнения команд.
#### Результаты
Для проверки эффективности StaR был разработан набор данных состояний GUI, включающий тогглы. Эксперименты проводились на трех разных многомодальных агентах. Результаты показали улучшение точности выполнения команд повторения переключения тоггла над текущим состоянием на более чем 30%. На трех отдельных бенчмарках также были продемонстрированы улучшения в общем производительности задач. Дополнительные эксперименты в динамической среде подтвердили возможность StaR для решения задач в реальном времени.
#### Значимость
Разработанная методика StaR может быть применена в различных сферах, включая автоматизацию, учетные системы и управление устройствами. Она предлагает высокую надежность и точность при выполнении команд, что позволяет существенно упростить взаимодействие с GUI. Помимо этого, StaR может сделать системы более удобными для пользователей, уменьшив количество ошибок в управлении.
#### Выводы
Разработка StaR показала высокую эффективность в задачах управления тогглами в GUI. Она позволяет улучшить надежность и точность многомодальных агентов в различных сценариях. В будущих исследованиях будет продолжаться работа над расширением моделей и их применением в более сложных реальных системах.
Abstract
The advent of multimodal agents facilitates effective interaction within
graphical user interface (GUI), especially in ubiquitous GUI control. However,
their inability to reliably execute toggle control instructions remains a key
bottleneck. To investigate this, we construct a state control benchmark with
binary toggle instructions from public datasets. Evaluations of existing agents
demonstrate their unreliability, particularly when the current toggle state
already matches the desired state. To address the challenge, we propose
State-aware Reasoning (StaR), a training method that teaches agents to perceive
the current toggle state, analyze the desired state from the instruction, and
act accordingly. Experiments on three multimodal agents demonstrate that StaR
can improve toggle instruction execution accuracy by over 30\%. Further
evaluations on three public benchmarks show that StaR also enhances general
task performance. Finally, evaluations on a dynamic environment highlight the
potential of StaR for real-world applications. Code, benchmark, and
StaR-enhanced agents are available at https://github.com/ZrW00/StaR.
Ссылки и действия
Дополнительные ресурсы: