EfficientUICoder: Efficient MLLM-based UI Code Generation via Input and Output Token Compression
2509.12159v1
cs.SE, cs.AI
2025-09-17
Авторы:
Jingyu Xiao, Zhongyi Zhang, Yuxuan Wan, Yintong Huo, Yang Liu, Michael R. Lyu
Резюме на русском
## Контекст
В последние годы Multimodal Large Language Models (MLLMs) продемонстрировали неординарную эффективность в решении задач UI2Code, значительно улучшив процесс разработки веб-приложений. Однако, эти модели связаны с высокой вычислительной нагрузкой из-за большого числа входных токенов изображений и значительного количества выходных токенов кода. Большая часть этой нагрузки связана с высоким уровнем ненужных токенов, которые не только усложняют процесс, но и приводят к производству длинных и не всегда корректных HTML-файлов. Наше исследование показало, что входные и выходные токены могут быть эффективно сжаты без потери качества.
## Метод
EfficientUICoder представляет собой рамку, основанную на компрессии токенов, которая состоит из трёх главных компонентов. **Элемент и Разметка-ориентированная компрессия токенов** (Element and Layout-aware Token Compression) использует детектирование регионов элементов и построение дерева элементов пользовательского интерфейса для сохранения важных данных. **Регион-ориентированная рефинализация токенов** (Region-aware Token Refinement) применяет атентсионные скоринги для отсеивания незначимых токенов, сохраняя важные токены из невыбранных областей. **Динамическое уменьшение повторений токенов** (Adaptive Duplicate Token Suppression) отслеживает структуру HTML/CSS, чтобы применить экспоненциальные наказания за повторения.
## Результаты
Мы провели тщательные эксперименты, используя разнообразные данные, включая реальные сайты. Результаты показали, что EfficientUICoder достигает сжатия в 55-60% без потери качества. Он снижает вычислительные затраты на 44,9%, уменьшает выделяемые токены на 41,4%, снижает время предварительной загрузки на 46,6% и время инференса на 48,8% при работе с моделями 34B-уровня. Этот подход позволяет уменьшить ресурсы, необходимые для синтеза кода, и улучшает качество результата, особенно в задачах с ограниченным объёмом вычислительных ресурсов.
## Значимость
Предложенный подход может использоваться в различных сферах, включая разработку мобильных и веб-приложений, разработку пользовательских интерфейсов, и другие области, где требуется эффективная генерация кода. Он позволяет экономить ресурсы, улучшать скорость работы моделей и сокращать время, затрачиваемое на разработку. Это может привести к значительному улучшению процессов разработки веб-приложений, уменьшению затрат на вычисления и увеличению производительности.
## Выводы
Мы представили EfficientUICoder, эффективное решение для сжатия токенов, которое значительно улучшает производительность в задачах UI2Code. Наши результаты показали, что модель эффективно сжимает входные и выходные токены, сохраняя кач
Abstract
Multimodal Large Language Models have demonstrated exceptional performance in
UI2Code tasks, significantly enhancing website development efficiency. However,
these tasks incur substantially higher computational overhead than traditional
code generation due to the large number of input image tokens and extensive
output code tokens required. Our comprehensive study identifies significant
redundancies in both image and code tokens that exacerbate computational
complexity and hinder focus on key UI elements, resulting in excessively
lengthy and often invalid HTML files. We propose EfficientUICoder, a
compression framework for efficient UI code generation with three key
components. First, Element and Layout-aware Token Compression preserves
essential UI information by detecting element regions and constructing UI
element trees. Second, Region-aware Token Refinement leverages attention scores
to discard low-attention tokens from selected regions while integrating
high-attention tokens from unselected regions. Third, Adaptive Duplicate Token
Suppression dynamically reduces repetitive generation by tracking HTML/CSS
structure frequencies and applying exponential penalties. Extensive experiments
show EfficientUICoderachieves a 55%-60% compression ratio without compromising
webpage quality and delivers superior efficiency improvements: reducing
computational cost by 44.9%, generated tokens by 41.4%, prefill time by 46.6%,
and inference time by 48.8% on 34B-level MLLMs. Code is available at
https://github.com/WebPAI/EfficientUICoder.
Ссылки и действия
Дополнительные ресурсы: