SparkUI-Parser: Enhancing GUI Perception with Robust Grounding and Parsing

2509.04908v1 cs.AI, cs.CL, cs.CV, cs.HC 2025-09-09
Авторы:

Hongyi Jing, Jiafu Chen, Chen Rao, Ziqiang Dang, Jiajie Teng, Tianyi Chu, Juncheng Mo, Shuo Fang, Huaizhong Lin, Rui Lv, Chenguang Ma, Lei Zhao

Резюме на русском

#### Контекст Multimodal Large Language Models (MLLMs) представляют собой мощный инструмент для обработки информации, объединяя текстовые данные с другими видами данных. Одна из перспективных областей использования MLLMs — обработка интерфейсов пользователей (GUI). Несмотря на прогресс, достигнутый существующими решениями, существуют недостатки. Многие методы оперируют дискретными координатами, используя авторегрессионные механизмы, что приводит к низкой точности локализации и дорогостоящему времени выполнения. Кроме того, эти модели способны распознавать только предопределенные элементы, не обладая возможностью полного парсинга интерфейса. Это ограничивает их применение в различных сценариях и ограничивает потенциал для поддержки подсистемных задач. Наша цель — разработать систему, обеспечивающую высокую точность и гибкость в распознавании интерфейсов. #### Метод Мы предлагаем SparkUI-Parser — новую модель, которая обеспечивает полный парсинг интерфейса и высокую точность локализации. Модель основывается на предварительно обученном MLLM и имеет два ключевых компонента: **токен-руссет** и **координатный декодер**. Вместо дискретного моделирования координат, SparkUI-Parser использует непрерывное моделирование, что позволяет избежать ограничений авторегрессионных методов. Для улучшения стабильности ввода вводится **режим реагирования**, основанный на модифицированном алгоритме Ханжамана. Это позволяет модели отбрасывать несуществующие элементы, уменьшая ложные срабатывания. Также мы представляем **ScreenParse**, новую базу данных для оценки структурного распознавания GUI, которая позволяет сравнивать модели в различных сценариях. #### Результаты Мы провели ряд экспериментов на множестве задач, включая ScreenSpot, ScreenSpot-v2, CAGUI-Grounding и ScreenParse. Модель SparkUI-Parser показала значительное превосходство по сравнению с состоянием технологий (SOTA) во всех этих зонах. Она достигла высокой точности локализации, быстроты выполнения и общей гибкости при обработке различных типов интерфейсов. Эксперименты подтвердили, что наш подход не только повышает точность, но и увеличивает скорость работы, что делает его применимым для реального времени. #### Значимость SparkUI-Parser может быть применен в различных областях, где требуется автоматизированное распознавание интерфейсов, например, в системах автоматического тестирования, видеоидентификации и разработке пользовательских интерфейсов. Он предлагает ряд преимуществ, включая высокую точность, быстроту и гибкость. Благодаря этому, модель может существенно улучшить производительность и надежность приложений, основанных на распозна

Abstract

The existing Multimodal Large Language Models (MLLMs) for GUI perception have made great progress. However, the following challenges still exist in prior methods: 1) They model discrete coordinates based on text autoregressive mechanism, which results in lower grounding accuracy and slower inference speed. 2) They can only locate predefined sets of elements and are not capable of parsing the entire interface, which hampers the broad application and support for downstream tasks. To address the above issues, we propose SparkUI-Parser, a novel end-to-end framework where higher localization precision and fine-grained parsing capability of the entire interface are simultaneously achieved. Specifically, instead of using probability-based discrete modeling, we perform continuous modeling of coordinates based on a pre-trained Multimodal Large Language Model (MLLM) with an additional token router and coordinate decoder. This effectively mitigates the limitations inherent in the discrete output characteristics and the token-by-token generation process of MLLMs, consequently boosting both the accuracy and the inference speed. To further enhance robustness, a rejection mechanism based on a modified Hungarian matching algorithm is introduced, which empowers the model to identify and reject non-existent elements, thereby reducing false positives. Moreover, we present ScreenParse, a rigorously constructed benchmark to systematically assess structural perception capabilities of GUI models across diverse scenarios. Extensive experiments demonstrate that our approach consistently outperforms SOTA methods on ScreenSpot, ScreenSpot-v2, CAGUI-Grounding and ScreenParse benchmarks. The resources are available at https://github.com/antgroup/SparkUI-Parser.

Ссылки и действия

Связанные статьи

AppCopilot: Toward General, Accurate, Long-Horizon, and Efficient Mobile Agent

#### Контекст Мобильные агенты, поддерживающие взаимодействие с пользователями через мобильные приложения, становятся в...

2025-09-05

UI-TARS-2 Technical Report: Advancing GUI Agent with Multi-Turn Reinforcement Le...

## Контекст На визуальных интерфейсах (GUI) происходит большая часть современного взаимодействия с компьютерами. Однако...

2025-09-05