Learning GUI Grounding with Spatial Reasoning from Visual Feedback

2509.21552v1 cs.CV, cs.CL 2025-09-30

Авторы:

Yu Zhao, Wei-Ning Chen, Huseyin Atahan Inan, Samuel Kessler, Lu Wang, Lukas Wutschitz, Fangkai Yang, Chaoyun Zhang, Pasquale Minervini, Saravan Rajmohan, Robert Sim

Резюме на русском

#### Контекст Графический интерфейс пользователя (GUI) широко используется в современных приложениях для взаимодействия с пользователем. Однако существуют проблемы с точностью интеллектуальных моделей, которые пытаются преобразовать естественный язык в координаты кликов и нажатий клавиш. Эти проблемы вызваны сложностью распознавания комплексных сложности графических пользовательских интерфейсов. Это снижает эффективность и повышает время работы систем. Наша мотивация заключается в развитии модели, которая будет учитывать пространственные связи и динамический контекст, чтобы улучшить точность и общую эффективность. #### Метод Мы предлагаем перефреймить задачу GUI-grounding как интерактивный поиск, где модель генерирует действия для перемещения курсора в пользовательском интерфейсе за счет распознавания объекта и оценки пространственных отношений. В каждом шаге модель определяет целевой объект, оценивает пространственные отношения курсора и перемещает курсор ближе к цели, исходя из прошлого движения. Мы используем нейросетевую модель GUI-Cursor, основанную на Qwen2.5-VL-7B, с тренировкой на многошаговом онлайн-реинфорсменте. Цветной курсор, отображающийся на экране, позволяет модели адаптироваться и улучшать свои решения в зависимости от процесса. #### Результаты Мы провели эксперименты с GUI-Cursor на двух наборах данных: ScreenSpot-v2 и ScreenSpot-Pro. На ScreenSpot-v2, наша модель увеличила долю правильных ответов с 88.8% до 93.9%, а на ScreenSpot-Pro — с 26.8% до 56.5%. Эксперименты показали, что наша модель находит решение в двух шагах для 95% случаев и может адаптироваться к более сложным ситуациям. #### Значимость Наша модель GUI-Cursor может быть применена в системах автоматизации, виртуальных помощниках и интерфейсах с глубоким взаимодействием. Она превосходит другие модели по точности и скорости, что делает её подходимой для реальных ситуаций. Главным преимуществом является способность адаптироваться к различным сложностям и учитывать пространственные отношения. Это может повлиять на развитие ИИ в области визуального понимания и повысит эффективность систем взаимодействия с пользователем. #### Выводы Мы успешно перефреймили задачу GUI-grounding как интерактивный поиск, показав преимущества нашей модели GUI-Cursor. Эта модель демонстрирует высокую точность и устойчивость в различных сценариях. Мы планируем расширить исследования на более сложные сценарии и улучшить модель для более сложных интерфейсов. Наш подход может стать ключевым для улучшения взаимодействия с пользователем в графических приложениях.

Abstract

Graphical User Interface (GUI) grounding is commonly framed as a coordinate prediction task -- given a natural language instruction, generate on-screen coordinates for actions such as clicks and keystrokes. However, recent Vision Language Models (VLMs) often fail to predict accurate numeric coordinates when processing high-resolution GUI images with complex layouts. To address this issue, we reframe GUI grounding as an \emph{interactive search task}, where the VLM generates actions to move a cursor in the GUI to locate UI elements. At each step, the model determines the target object, evaluates the spatial relations between the cursor and the target, and moves the cursor closer to the target conditioned on the movement history. In this interactive process, the rendered cursor provides visual feedback to help the model align its predictions with the corresponding on-screen locations. We train our GUI grounding model, GUI-Cursor, using multi-step online reinforcement learning with a dense trajectory-based reward function. Our experimental results show that GUI-Cursor, based on Qwen2.5-VL-7B, improves the GUI grounding accuracy and achieves state-of-the-art results on ScreenSpot-v2 ($88.8\% \rightarrow 93.9\%$) and ScreenSpot-Pro ($26.8\% \rightarrow 56.5\%$). Moreover, we observe that GUI-Cursor learns to solve the problem within two steps for 95\% of instances and can adaptively conduct more steps on more difficult examples.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Learning GUI Grounding with Spatial Reasoning from Visual Feedback

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Text-Only Training for Image Captioning with Retrieval Augmentation and Modality...

Generalized Medical Phrase Grounding

CartoMapQA: A Fundamental Benchmark Dataset Evaluating Vision-Language Models on...

Thinking with Programming Vision: Towards a Unified View for Thinking with Image...

See, Think, Learn: A Self-Taught Multimodal Reasoner

Навигация