EfficientUICoder: Efficient MLLM-based UI Code Generation via Input and Output Token Compression

2509.12159v1 cs.SE, cs.AI 2025-09-17
Авторы:

Jingyu Xiao, Zhongyi Zhang, Yuxuan Wan, Yintong Huo, Yang Liu, Michael R. Lyu

Резюме на русском

## Контекст В последние годы Multimodal Large Language Models (MLLMs) продемонстрировали неординарную эффективность в решении задач UI2Code, значительно улучшив процесс разработки веб-приложений. Однако, эти модели связаны с высокой вычислительной нагрузкой из-за большого числа входных токенов изображений и значительного количества выходных токенов кода. Большая часть этой нагрузки связана с высоким уровнем ненужных токенов, которые не только усложняют процесс, но и приводят к производству длинных и не всегда корректных HTML-файлов. Наше исследование показало, что входные и выходные токены могут быть эффективно сжаты без потери качества. ## Метод EfficientUICoder представляет собой рамку, основанную на компрессии токенов, которая состоит из трёх главных компонентов. **Элемент и Разметка-ориентированная компрессия токенов** (Element and Layout-aware Token Compression) использует детектирование регионов элементов и построение дерева элементов пользовательского интерфейса для сохранения важных данных. **Регион-ориентированная рефинализация токенов** (Region-aware Token Refinement) применяет атентсионные скоринги для отсеивания незначимых токенов, сохраняя важные токены из невыбранных областей. **Динамическое уменьшение повторений токенов** (Adaptive Duplicate Token Suppression) отслеживает структуру HTML/CSS, чтобы применить экспоненциальные наказания за повторения. ## Результаты Мы провели тщательные эксперименты, используя разнообразные данные, включая реальные сайты. Результаты показали, что EfficientUICoder достигает сжатия в 55-60% без потери качества. Он снижает вычислительные затраты на 44,9%, уменьшает выделяемые токены на 41,4%, снижает время предварительной загрузки на 46,6% и время инференса на 48,8% при работе с моделями 34B-уровня. Этот подход позволяет уменьшить ресурсы, необходимые для синтеза кода, и улучшает качество результата, особенно в задачах с ограниченным объёмом вычислительных ресурсов. ## Значимость Предложенный подход может использоваться в различных сферах, включая разработку мобильных и веб-приложений, разработку пользовательских интерфейсов, и другие области, где требуется эффективная генерация кода. Он позволяет экономить ресурсы, улучшать скорость работы моделей и сокращать время, затрачиваемое на разработку. Это может привести к значительному улучшению процессов разработки веб-приложений, уменьшению затрат на вычисления и увеличению производительности. ## Выводы Мы представили EfficientUICoder, эффективное решение для сжатия токенов, которое значительно улучшает производительность в задачах UI2Code. Наши результаты показали, что модель эффективно сжимает входные и выходные токены, сохраняя кач

Abstract

Multimodal Large Language Models have demonstrated exceptional performance in UI2Code tasks, significantly enhancing website development efficiency. However, these tasks incur substantially higher computational overhead than traditional code generation due to the large number of input image tokens and extensive output code tokens required. Our comprehensive study identifies significant redundancies in both image and code tokens that exacerbate computational complexity and hinder focus on key UI elements, resulting in excessively lengthy and often invalid HTML files. We propose EfficientUICoder, a compression framework for efficient UI code generation with three key components. First, Element and Layout-aware Token Compression preserves essential UI information by detecting element regions and constructing UI element trees. Second, Region-aware Token Refinement leverages attention scores to discard low-attention tokens from selected regions while integrating high-attention tokens from unselected regions. Third, Adaptive Duplicate Token Suppression dynamically reduces repetitive generation by tracking HTML/CSS structure frequencies and applying exponential penalties. Extensive experiments show EfficientUICoderachieves a 55%-60% compression ratio without compromising webpage quality and delivers superior efficiency improvements: reducing computational cost by 44.9%, generated tokens by 41.4%, prefill time by 46.6%, and inference time by 48.8% on 34B-level MLLMs. Code is available at https://github.com/WebPAI/EfficientUICoder.

Ссылки и действия