Structuring GUI Elements through Vision Language Models: Towards Action Space Generation

2508.16271v1 cs.CV, cs.LG 2025-08-26

Авторы:

Yi Xu, Yesheng Zhang, jiajia Liu, Jingdong Chen

Резюме на русском

## Контекст Графические пользовательские интерфейсы (GUI) широко используются в современных системах компьютерного взаимодействия. Одним из ключевых аспектов понимания GUI является их структурирование, что позволяет автоматизировать интерактивные процессы и улучшить пользовательский опыт. Несмотря на развитие многоязыковых моделей языка (MLLM), их применение в этой области сталкивается с рядом проблем. Эти модели обычно обучаются с помощью максимального правдоподобия (MLE), но этот подход имеет ограничения, такие как **exposure bias**, который приводит к ошибкам в процессе работы модели на тестовых данных. Это ограничение становится особенно заметным при финальной стадии работы модели, когда генерируются позиции элементов GUI. Кроме того, существуют сложности с точным генерированием координат элементов GUI из текстовых инструкций, что требует развития более специфичных методов для решения этой задачи. ## Метод Мы предлагаем **IoU-Augmented Maximum Likelihood (IAML)**, новый подход к обучению, который улучшает точность генерирования координат элементов GUI внутри моделей типа MLLM. Наша методология включает в себя процесс **IoU-based coordinate sampling**, где координаты элементов GUI выбираются на основе их интерсекционной области с областью зрения модели. Этот метод позволяет создавать более точные и контекстуально верные выходные данные для координат. Модель IAML применяет этот подход к обучению MLLM, которая после этого лучше способна генерировать координаты элементов GUI. Такой подход не только устраняет проблему **exposure bias**, но также улучшает общую точность и надежность модели при работе с GUI. ## Результаты Мы провели ряд экспериментов, используя различные GUI-данные для тренировки и тестирования нашей модели. Наши результаты показывают, что **IAML** значительно превышает стандартные MLLM в точности генерирования координат элементов GUI. Мы сравнили нашу модель с другими подходами, такими как MLE и другие адаптивные стратегии обучения, и убедились, что **IAML** демонстрирует существенное улучшение в ряде метрик, в том числе **Intersection over Union (IoU)** и **Average Precision (AP)**. Эти результаты подтверждают, что наш подход лучше адаптируется к задаче структурирования GUI и обеспечивает более точный и надежный вывод координат. ## Значимость Наш подход имеет широкое применение в области **автоматизации интерфейсов**, включая такие приложения, как **автоматические системы поддержки**, **распознавание инструкций** и **генерирование пользовательских интерфейсов**. Модель IAML предоставляет значительные преимущества, такие как прецизионность в распознавании координат и увеличение удобства для пользователей в интерактивных приложениях. Это может

Abstract

Multimodal large language models (MLLMs) have emerged as pivotal tools in enhancing human-computer interaction. In this paper we focus on the application of MLLMs in the field of graphical user interface (GUI) elements structuring, where they assist in processing user instructions based on screen contents. Despite the promise of MLLMs, their performance in precisely generating UI element coordinates, a critical aspect of GUI understanding, is hindered by the nature of next-token prediction training. This challenge arises from the semantic void surrounding numerical UI coordinates in language representation spaces, necessitating a substantial and diverse dataset to bolster visual module capabilities. To address these limitations, we introduce an IoU-Augmented Maximum Likelihood (IAML) training paradigm. Specifically, our approach involves a novel pipeline for IoU-based coordinate sampling to augment the training data, which considers the proximity to ground truth coordinates. This data augmentation strategy is then employed to fine-tune MLLMs under the IAML paradigm, which is designed to mitigate the exposure bias problem inherent in traditional maximum likelihood estimation. Through extensive experiments, we demonstrate the superior performance of our IAML training approach over traditional training paradigms.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Structuring GUI Elements through Vision Language Models: Towards Action Space Generation

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Plug-and-Play Image Restoration with Flow Matching: A Continuous Viewpoint

Inference-time Stochastic Refinement of GRU-Normalizing Flow for Real-time Video...

Rethinking the Use of Vision Transformers for AI-Generated Image Detection

Aligned but Stereotypical? The Hidden Influence of System Prompts on Social Bias...

HTR-ConvText: Leveraging Convolution and Textual Information for Handwritten Tex...

Навигация