DPad: Efficient Diffusion Language Models with Suffix Dropout

2508.14148v1 cs.CL, cs.LG 2025-08-22
Авторы:

Xinhua Chen, Sitao Huang, Cong Guo, Chiyue Wei, Yintao He, Jianyi Zhang, Hai "Hellen" Li, Yiran Chen

Резюме на русском

#### Контекст Diffusion-based Large Language Models (dLLMs) широко применяются для текстового генерирования, позволяя распараллелить процесс генерации. Однако они сталкиваются с высоким компьютерным накладным расходом, так как осуществляют декодирование путем предсказания всех будущих токенов (суффиксов) в каждом шаге, в то время как только малая часть этих токенов используется в итоговом результате. Эта проблема становится особенно заметной при работе с длинными последовательностями текста, где производительность становится критично важной. На основе этой мотивации была создана статья DPad: Efficient Diffusion Language Models with Suffix Dropout, которая предлагает рациональное решение для улучшения производительности движков dLLMs без ущерба для точности. #### Метод Предлагаемый подход, **Diffusion Scratchpad (DPad)**, стремится улучшить эффективность систем dLLMs, оптимизируя модель аддитивной экспоненциальной модели (AEDM). DPad использует два основных механизма: **строго ограниченный слайдинг-окно (sliding window)** и **определяемый дистанцией-затухание (distance-decay dropout)**. Оба эти механизма гарантируют, что модель будет обрабатывать только ближайшие позиции в суффиксе, удаляя ненужную информацию. Это значительно упрощает вычислительную нагрузку и сохраняет высокую точность. Более того, DPad легко интегрируется в существующие оптимизации, такие как префикс-кэширование, и может быть реализована с помощью нескольких строк кода. #### Результаты Результаты показали, что DPad эффективно увеличивает скорость работы моделей dLLMs, достигая скоростного подъема до **61.4×** в сравнении с базовыми dLLMs, при этом сохраняя высокую точность результатов. Оценки проводились на таких бенчмарках как LLaDA-1.5 и Dream, используя модель LLaMA-2. Набор данных в этих экспериментах включал длинные тексты, что позволило доказать высокую эффективность DPad в условиях реальных задач. Эти результаты указывают на потенциал DPad для оптимизации dLLMs в сценариях с большим объемом данных. #### Значимость DPad может применяться в различных областях, где необходима производительная обработка данных, например, в генерации текста, разработке систем диалоговых систем и анализе больших текстовых данных. Основные преимущества DPad заключаются в улучшении производительности (уменьшение времени вычислений и ресурсоемкости), сохранение высокой точности и простоте внедрения благодаря небольшому количеству изменений в коде. Это может стать ключевым решением для эффективного использования ресурсов в масштабируемых моделях dLLMs. #### Выводы Успех DPad подтверждает возможность улучшения динамической производительности dLLMs, при этом сохра

Abstract

Diffusion-based Large Language Models (dLLMs) parallelize text generation by framing decoding as a denoising process, but suffer from high computational overhead since they predict all future suffix tokens at each step while retaining only a small fraction. We propose Diffusion Scratchpad (DPad), a training-free method that restricts attention to a small set of nearby suffix tokens, preserving fidelity while eliminating redundancy. DPad integrates two strategies: (i) a sliding window, which maintains a fixed-length suffix window, and (ii) distance-decay dropout, which deterministically removes distant suffix tokens before attention computation. This simple design is compatible with existing optimizations such as prefix caching and can be implemented with only a few lines of code. Comprehensive evaluations across multiple benchmarks on LLaDA-1.5 and Dream models demonstrate that DPad delivers up to $\mathbf{61.4\times}$ speedup over vanilla dLLMs while maintaining comparable accuracy, highlighting its potential for efficient and scalable long-sequence inference. Our code is available at https://github.com/Crys-Chen/DPad.

Ссылки и действия