SparkUI-Parser: Enhancing GUI Perception with Robust Grounding and Parsing
2509.04908v1
cs.AI, cs.CL, cs.CV, cs.HC
2025-09-09
Авторы:
Hongyi Jing, Jiafu Chen, Chen Rao, Ziqiang Dang, Jiajie Teng, Tianyi Chu, Juncheng Mo, Shuo Fang, Huaizhong Lin, Rui Lv, Chenguang Ma, Lei Zhao
Резюме на русском
#### Контекст
Multimodal Large Language Models (MLLMs) представляют собой мощный инструмент для обработки информации, объединяя текстовые данные с другими видами данных. Одна из перспективных областей использования MLLMs — обработка интерфейсов пользователей (GUI). Несмотря на прогресс, достигнутый существующими решениями, существуют недостатки. Многие методы оперируют дискретными координатами, используя авторегрессионные механизмы, что приводит к низкой точности локализации и дорогостоящему времени выполнения. Кроме того, эти модели способны распознавать только предопределенные элементы, не обладая возможностью полного парсинга интерфейса. Это ограничивает их применение в различных сценариях и ограничивает потенциал для поддержки подсистемных задач. Наша цель — разработать систему, обеспечивающую высокую точность и гибкость в распознавании интерфейсов.
#### Метод
Мы предлагаем SparkUI-Parser — новую модель, которая обеспечивает полный парсинг интерфейса и высокую точность локализации. Модель основывается на предварительно обученном MLLM и имеет два ключевых компонента: **токен-руссет** и **координатный декодер**. Вместо дискретного моделирования координат, SparkUI-Parser использует непрерывное моделирование, что позволяет избежать ограничений авторегрессионных методов. Для улучшения стабильности ввода вводится **режим реагирования**, основанный на модифицированном алгоритме Ханжамана. Это позволяет модели отбрасывать несуществующие элементы, уменьшая ложные срабатывания. Также мы представляем **ScreenParse**, новую базу данных для оценки структурного распознавания GUI, которая позволяет сравнивать модели в различных сценариях.
#### Результаты
Мы провели ряд экспериментов на множестве задач, включая ScreenSpot, ScreenSpot-v2, CAGUI-Grounding и ScreenParse. Модель SparkUI-Parser показала значительное превосходство по сравнению с состоянием технологий (SOTA) во всех этих зонах. Она достигла высокой точности локализации, быстроты выполнения и общей гибкости при обработке различных типов интерфейсов. Эксперименты подтвердили, что наш подход не только повышает точность, но и увеличивает скорость работы, что делает его применимым для реального времени.
#### Значимость
SparkUI-Parser может быть применен в различных областях, где требуется автоматизированное распознавание интерфейсов, например, в системах автоматического тестирования, видеоидентификации и разработке пользовательских интерфейсов. Он предлагает ряд преимуществ, включая высокую точность, быстроту и гибкость. Благодаря этому, модель может существенно улучшить производительность и надежность приложений, основанных на распозна
Abstract
The existing Multimodal Large Language Models (MLLMs) for GUI perception have
made great progress. However, the following challenges still exist in prior
methods: 1) They model discrete coordinates based on text autoregressive
mechanism, which results in lower grounding accuracy and slower inference
speed. 2) They can only locate predefined sets of elements and are not capable
of parsing the entire interface, which hampers the broad application and
support for downstream tasks. To address the above issues, we propose
SparkUI-Parser, a novel end-to-end framework where higher localization
precision and fine-grained parsing capability of the entire interface are
simultaneously achieved. Specifically, instead of using probability-based
discrete modeling, we perform continuous modeling of coordinates based on a
pre-trained Multimodal Large Language Model (MLLM) with an additional token
router and coordinate decoder. This effectively mitigates the limitations
inherent in the discrete output characteristics and the token-by-token
generation process of MLLMs, consequently boosting both the accuracy and the
inference speed. To further enhance robustness, a rejection mechanism based on
a modified Hungarian matching algorithm is introduced, which empowers the model
to identify and reject non-existent elements, thereby reducing false positives.
Moreover, we present ScreenParse, a rigorously constructed benchmark to
systematically assess structural perception capabilities of GUI models across
diverse scenarios. Extensive experiments demonstrate that our approach
consistently outperforms SOTA methods on ScreenSpot, ScreenSpot-v2,
CAGUI-Grounding and ScreenParse benchmarks. The resources are available at
https://github.com/antgroup/SparkUI-Parser.