Morae: Proactively Pausing UI Agents for User Choices

2508.21456v1 cs.HC, cs.CL, cs.CV 2025-09-02

Авторы:

Yi-Hao Peng, Dingzeyu Li, Jeffrey P. Bigham, Amy Pavel

Резюме на русском

## Контекст Область исследования сосредоточена на развитии пользовательских интерфейсов (UI), которые облегчают доступ к сложной или недоступной информации для людей с ограниченным зрением (BLV). Несмотря на преимущества UI-агентов, их текущая реализация часто приводит к уменьшению пользовательского влияния. Они выполняют задачи с искусственным интеллектом без участия пользователя в критических выборах или предупреждении о важной контекстной информации. Например, в одном из исследований BLV-участник хотел купить спарклинг-воду по самой низкой цене, но агент автоматически выбрал одну без упоминания других вариантов с разными вкусами или лучшими оценками. Эта проблема мешает пользователям эффективно использовать агенты, что является мотивацией для разработки Morae. ## Метод Morae — это инновационный подход, который активно вовлекает пользователей в ключевые решения. Он использует мощные модели мультимодального анализа для интерпретации пользовательских запросов, разбора кода UI и скриншотов. Когда агент обнаруживает решающий момент, он приостанавливает свою работу, чтобы пользователь мог внести вклад в выбор. Это стратегия гармонизирует выгоду от автоматизации с возможностью выражения пользовательских предпочтений. Архитектура Morae основана на динамической идентификации решений и интерактивном взаимодействии с пользователем. ## Результаты Модель была проверена на реальных задачах в интернете с участием BLV-участников. Результаты показали, что Morae позволила выполнить больше задач по сравнению с базовыми агентами, включая OpenAI Operator. Кроме того, пользователи Morae сделали выбор, более соответствующий их предпочтениям. Эти результаты демонстрируют улучшенную эффективность и преимущества в смешанной инициативе, где автоматизация и пользовательские предпочтения одновременно применяются. ## Значимость Morae может применяться в различных сферах, где требуется оптимизация пользовательского опыта, таких как доступ к сложной информации, торговля и управление информационными системами. Он предоставляет более интерактивную и удобную платформу для пользователей, повышая их самостоятельность. Этот подход может стать пионерским в развитии новых пользовательских интерфейсов, которые будут учитывать не только технические возможности, но и потребности пользователей, обеспечивая более эффективное и точное выполнение задач. ## Выводы Morae продемонстрировал эффективность в улучшении доступности и эффективности пользовательских интерфейсов для BLV-пользователей. Будущие исследования будут направлены на улуч

Abstract

User interface (UI) agents promise to make inaccessible or complex UIs easier to access for blind and low-vision (BLV) users. However, current UI agents typically perform tasks end-to-end without involving users in critical choices or making them aware of important contextual information, thus reducing user agency. For example, in our field study, a BLV participant asked to buy the cheapest available sparkling water, and the agent automatically chose one from several equally priced options, without mentioning alternative products with different flavors or better ratings. To address this problem, we introduce Morae, a UI agent that automatically identifies decision points during task execution and pauses so that users can make choices. Morae uses large multimodal models to interpret user queries alongside UI code and screenshots, and prompt users for clarification when there is a choice to be made. In a study over real-world web tasks with BLV participants, Morae helped users complete more tasks and select options that better matched their preferences, as compared to baseline agents, including OpenAI Operator. More broadly, this work exemplifies a mixed-initiative approach in which users benefit from the automation of UI agents while being able to express their preferences.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Morae: Proactively Pausing UI Agents for User Choices

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

GPT-5 Model Corrected GPT-4V's Chart Reading Errors, Not Prompting

Навигация