UI-UG: A Unified MLLM for UI Understanding and Generation

2509.24361v2 cs.CV, cs.AI, cs.HC 2025-10-01
Авторы:

Hao Yang, Weijie Qiu, Ru Zhang, Zhou Fang, Ruichao Mao, Xiaoyu Lin, Maji Huang, Zhaosong Huang, Teng Guo, Shuoyang Liu, Hai Rao

Резюме на русском

#### Контекст Современные User Interfaces (UI) становятся все более сложными, включая в себя не только текстовую информацию, но и изображения, звук и видео. Это приводит к росту сложности их понимания и генерации, что требует развития эффективных методов. Однако существующие Multimodal Large Language Models (MLLMs) часто сталкиваются с проблемами точности и качества при работе с UI-задачами. Эти ограничения мотивируют разработку специализированных моделей, которые бы сбалансировали точность и скорость работы, а также смогли бы повысить качество генерации интерфейсов. #### Метод Мы предлагаем UI-UG — модель, которая объединяет возможности понимания и генерации UI в единой структуре на основе Multimodal Large Language Models. Для понимания UI используется **Supervised Fine-tuning (SFT)** в сочетании с **Group Relative Policy Optimization (GRPO)**, что позволяет улучшить точность и мелкогранулярность понимания. Для генерации UI применяется **Direct Preference Optimization (DPO)**, чтобы модель могла сгенерировать интерфейсы, соответствующие предпочтениям пользователей. Также мы предлагаем **LLM-friendly DSL** (доменно-специализированный язык), **оптимизированные стратегии обучения**, процессы рендеринга и подробные **метрики оценки**, чтобы улучшить производительность в реальных условиях. #### Результаты В экспериментах мы проверили модель UI-UG на различных датасетах по пониманию и генерации UI. Модель показала **state-of-the-art (SOTA)** результаты в понимании UI, превосходя как более крупные general-purpose MLLMs, так и модели специализированные на UI, но с меньшим компьютерным воздействием. В генерации UI UI-UG показала результаты, сравнимые с крупными MLLMs, при значительно меньших затратах ресурсов. Мы также продемонстрировали, что объединение понимания и генерации UI может улучшить качество как понимания, так и генерации. Результаты были получены с использованием **данных из сети** и **задачных наборов**, чтобы продемонстрировать реальную эффективность модели. #### Значимость Модель UI-UG имеет многочисленные применения в области UI-дизайна, в том числе в создании интерактивных приложений, генерации UI-компонентов, анализе и модернизации существующих интерфейсов. Одним из основных преимуществ является способность модели работать со сложными UI-данными, оптимизировав как понимание, так и генерацию. Это приводит к повышению качества и точности в оба направления. Будущие исследования будут направлены на улучшение скорости работы, уменьшение потребления ресурсов и расширение доменных моделей, чтобы сделать модель UI-UG еще более универсальной и эффективной. #### Выводы Разработанная модель UI-UG доказывает свою эффективность в области понимания и генерации интерфейсов.

Abstract

Although Multimodal Large Language Models (MLLMs) have been widely applied across domains, they are still facing challenges in domain-specific tasks, such as User Interface (UI) understanding accuracy and UI generation quality. In this paper, we introduce UI-UG (a unified MLLM for UI Understanding and Generation), integrating both capabilities. For understanding tasks, we employ Supervised Fine-tuning (SFT) combined with Group Relative Policy Optimization (GRPO) to enhance fine-grained understanding on the modern complex UI data. For generation tasks, we further use Direct Preference Optimization (DPO) to make our model generate human-preferred UIs. In addition, we propose an industrially effective workflow, including the design of an LLM-friendly domain-specific language (DSL), training strategies, rendering processes, and evaluation metrics. In experiments, our model achieves state-of-the-art (SOTA) performance on understanding tasks, outperforming both larger general-purpose MLLMs and similarly-sized UI-specialized models. Our model is also on par with these larger MLLMs in UI generation performance at a fraction of the computational cost. We also demonstrate that integrating understanding and generation tasks can improve accuracy and quality for both tasks. Code and Model: https://github.com/neovateai/UI-UG

Ссылки и действия