UI-UG: A Unified MLLM for UI Understanding and Generation
2509.24361v2
cs.CV, cs.AI, cs.HC
2025-10-01
Авторы:
Hao Yang, Weijie Qiu, Ru Zhang, Zhou Fang, Ruichao Mao, Xiaoyu Lin, Maji Huang, Zhaosong Huang, Teng Guo, Shuoyang Liu, Hai Rao
Резюме на русском
#### Контекст
Современные User Interfaces (UI) становятся все более сложными, включая в себя не только текстовую информацию, но и изображения, звук и видео. Это приводит к росту сложности их понимания и генерации, что требует развития эффективных методов. Однако существующие Multimodal Large Language Models (MLLMs) часто сталкиваются с проблемами точности и качества при работе с UI-задачами. Эти ограничения мотивируют разработку специализированных моделей, которые бы сбалансировали точность и скорость работы, а также смогли бы повысить качество генерации интерфейсов.
#### Метод
Мы предлагаем UI-UG — модель, которая объединяет возможности понимания и генерации UI в единой структуре на основе Multimodal Large Language Models. Для понимания UI используется **Supervised Fine-tuning (SFT)** в сочетании с **Group Relative Policy Optimization (GRPO)**, что позволяет улучшить точность и мелкогранулярность понимания. Для генерации UI применяется **Direct Preference Optimization (DPO)**, чтобы модель могла сгенерировать интерфейсы, соответствующие предпочтениям пользователей. Также мы предлагаем **LLM-friendly DSL** (доменно-специализированный язык), **оптимизированные стратегии обучения**, процессы рендеринга и подробные **метрики оценки**, чтобы улучшить производительность в реальных условиях.
#### Результаты
В экспериментах мы проверили модель UI-UG на различных датасетах по пониманию и генерации UI. Модель показала **state-of-the-art (SOTA)** результаты в понимании UI, превосходя как более крупные general-purpose MLLMs, так и модели специализированные на UI, но с меньшим компьютерным воздействием. В генерации UI UI-UG показала результаты, сравнимые с крупными MLLMs, при значительно меньших затратах ресурсов. Мы также продемонстрировали, что объединение понимания и генерации UI может улучшить качество как понимания, так и генерации. Результаты были получены с использованием **данных из сети** и **задачных наборов**, чтобы продемонстрировать реальную эффективность модели.
#### Значимость
Модель UI-UG имеет многочисленные применения в области UI-дизайна, в том числе в создании интерактивных приложений, генерации UI-компонентов, анализе и модернизации существующих интерфейсов. Одним из основных преимуществ является способность модели работать со сложными UI-данными, оптимизировав как понимание, так и генерацию. Это приводит к повышению качества и точности в оба направления. Будущие исследования будут направлены на улучшение скорости работы, уменьшение потребления ресурсов и расширение доменных моделей, чтобы сделать модель UI-UG еще более универсальной и эффективной.
#### Выводы
Разработанная модель UI-UG доказывает свою эффективность в области понимания и генерации интерфейсов.
Abstract
Although Multimodal Large Language Models (MLLMs) have been widely applied
across domains, they are still facing challenges in domain-specific tasks, such
as User Interface (UI) understanding accuracy and UI generation quality. In
this paper, we introduce UI-UG (a unified MLLM for UI Understanding and
Generation), integrating both capabilities. For understanding tasks, we employ
Supervised Fine-tuning (SFT) combined with Group Relative Policy Optimization
(GRPO) to enhance fine-grained understanding on the modern complex UI data. For
generation tasks, we further use Direct Preference Optimization (DPO) to make
our model generate human-preferred UIs. In addition, we propose an industrially
effective workflow, including the design of an LLM-friendly domain-specific
language (DSL), training strategies, rendering processes, and evaluation
metrics. In experiments, our model achieves state-of-the-art (SOTA) performance
on understanding tasks, outperforming both larger general-purpose MLLMs and
similarly-sized UI-specialized models. Our model is also on par with these
larger MLLMs in UI generation performance at a fraction of the computational
cost. We also demonstrate that integrating understanding and generation tasks
can improve accuracy and quality for both tasks. Code and Model:
https://github.com/neovateai/UI-UG
Ссылки и действия
Дополнительные ресурсы: