Quantization Meets dLLMs: A Systematic Study of Post-training Quantization for Diffusion LLMs
2508.14896v1
cs.CL, cs.AI
2025-08-22
Авторы:
Haokun Lin, Haobo Xu, Yichen Wu, Ziyu Guo, Renrui Zhang, Zhichao Lu, Ying Wei, Qingfu Zhang, Zhenan Sun
Резюме на русском
#### Контекст
Диффузионные большие языковые модели (dLLMs) представляют собой альтернативную подход к авторегрессионным (AR) языковым моделям для задач естественного языкового понимания и генерации. Они используют полное внимание и стратегии декодирования на основе дискретного диффузионного сглаживания, что делает их эффективными для многих задач. Однако, деплоймент dLLMs на ресурсораспределенных устройствах, таких как мобильные и IoT-устройства, остается сложной задачей из-за их высокого потребления ресурсов и массивного объема параметров. Хотя методы постобучения (post-training) компрессии, такие как постобучевая трансляция в низкобитную сетку (post-training quantization, PTQ), показали свою эффективность для сжатия AR LLMs, их применимость к dLLMs еще не тщательно исследована. Это ставит задачу разработки методов сжатия dLLMs для эффективного деплоймента.
#### Метод
Мы предлагаем тщательное исследование постобучевая трансляция в низкобитную сетку для dLLMs. Методология включает в себя: 1) идентификацию и анализ активационных выбросов (activation outliers), которые являются резкими значениями, занимающими большую часть динамического диапазона; 2) разработка и реализация современных методов PTQ для dLLMs; 3) построение экспериментов на различных типах задач и моделях dLLM, включая различные бит-width и настройки; 4) анализ производительности моделей по фундаментальным критериям качества и сжатия. Наша методика позволяет изучить различные аспекты сжатия dLLMs и установить рекомендации для эффективного использования PTQ в таких моделях.
#### Результаты
Мы провели эксперименты на нескольких различных размерах моделей dLLM, включая наиболее популярные архитектуры, используя различные бит-width и методы PTQ. Наши результаты показали, что dLLMs очень чувствительны к выбору бит-width и метода компрессии. Мы обнаружили, что низкобитные модели (например, 4-bit или 8-bit) могут вызывать существенную потерю точности, особенно для высоконагруженных моделей. Однако современные методы quantization-aware training (QAT) и zero-shot PTQ показали некоторый потенциал для улучшения качества после сжатия. Мы также проанализировали влияние разных задач (например, синтеза речи, трансформации текста) на поведение dLLMs после сжатия.
#### Значимость
Предлагаемый подход добавляет значительные возможности для эффективного деплоймента dLLMs на ресурсораспределенных устройствах. Мы продвигаем знания в области сжатия dLLMs, которые могут быть использованы для создания моделей с более низким потреблением ресурсов, без значительной потери качества. Это открывает пути для использования d
Abstract
Recent advances in diffusion large language models (dLLMs) have introduced a
promising alternative to autoregressive (AR) LLMs for natural language
generation tasks, leveraging full attention and denoising-based decoding
strategies. However, the deployment of these models on edge devices remains
challenging due to their massive parameter scale and high resource demands.
While post-training quantization (PTQ) has emerged as a widely adopted
technique for compressing AR LLMs, its applicability to dLLMs remains largely
unexplored. In this work, we present the first systematic study on quantizing
diffusion-based language models. We begin by identifying the presence of
activation outliers, characterized by abnormally large activation values that
dominate the dynamic range. These outliers pose a key challenge to low-bit
quantization, as they make it difficult to preserve precision for the majority
of values. More importantly, we implement state-of-the-art PTQ methods and
conduct a comprehensive evaluation across multiple task types and model
variants. Our analysis is structured along four key dimensions: bit-width,
quantization method, task category, and model type. Through this
multi-perspective evaluation, we offer practical insights into the quantization
behavior of dLLMs under different configurations. We hope our findings provide
a foundation for future research in efficient dLLM deployment. All codes and
experimental setups will be released to support the community.
Ссылки и действия
Дополнительные ресурсы: