Fast and Fluent Diffusion Language Models via Convolutional Decoding and Rejective Fine-tuning

2509.15188v1 cs.CL, cs.AI, cs.LG, 68T50, I.2.7 2025-09-20
Авторы:

Yeongbin Seo, Dongha Lee, Jaehyung Kim, Jinyoung Yeo

Резюме на русском

#### Контекст Существующие модели языка, основанные на авторегрессионной архитектуре (AR), генерируют текст по одному токену за раз. Это ограничивает их скорость инференса и приводит к неэффективности при больших объемах генерируемых данных. Одновременно, модели на основе диффузионного подхода (diffusion) позволяют проводить параллельную генерацию нескольких токенов, что обеспечивает повышенную скорость и параллелизм. Однако в существующих диффузионных моделях языка существует ключевая проблема — так называемый "long decoding-window problem", когда токены, генерируемые далеко от контекста входных данных, либо являются не относящимися к контексту, либо повторяются. Эта проблема ограничивает качество и скорость моделей. Нашим целью является исследование новых методов, улучшающих производительность диффузионных моделей языка, сохраняя их преимущества в скорости и параллелизме. #### Метод Для решения проблемы "long decoding-window problem" мы предлагаем два основных метода: **Convolutional Decoding (Conv)** и **Rejecting Rule-based Fine-Tuning (R2FT)**. **Conv** нормализует процесс генерации, уменьшая окно генерации токенов без жесткого разбиения на блоки. Это позволяет сохранить гармонию в тексте, повысить его целостность и сократить время генерации. **R2FT** — постобучение, предназначенное для точного выравнивания токенов, которые находятся далеко от контекста. Этот подход улучшает точность генерируемых моделями данных и их адекватность контексту. Мы использовали архитектуру базирующуюся на нейронных сетях, которая объединяет эти два метода для получения максимального эффекта. #### Результаты Мы провели эксперименты на открытых бенчмарках, таких как AlpacaEval. Результаты показали, что наш подход дает значительные улучшения как в скорости генерации, так и в качестве. Модель, использующая Conv и R2FT, демонстрирует значительно более высокую скорость генерации, чем существующие диффузионные модели, при этом сохраняя высокую точность и гармонию текста. Была достигнута лучшая скорость генерации с сохранением качества, что демонстрирует преимущества нашего подхода по сравнению с другими методами. #### Значимость Наш подход может быть применен в различных областях, где необходима быстрая и качественная генерация языка, например, в синтезе речи, в генерации текста для конкретных приложений, в области трансляции, и др. Он предоставляет два значительных преимущества: увеличение скорости и качества генерации, позволяя применять модели диффузионной генерации в реальном времени. Мы планируем продолжить работу над улучшением этих методов, особенно в

Abstract

Autoregressive (AR) language models generate text one token at a time, which limits their inference speed. Diffusion-based language models offer a promising alternative, as they can decode multiple tokens in parallel. However, we identify a key bottleneck in current diffusion LMs: the long decoding-window problem, where tokens generated far from the input context often become irrelevant or repetitive. Previous solutions like semi-autoregressive address this issue by splitting windows into blocks, but this sacrifices speed and bidirectionality, eliminating the main advantage of diffusion models. To overcome this, we propose Convolutional decoding (Conv), a normalization-based method that narrows the decoding window without hard segmentation, leading to better fluency and flexibility. Additionally, we introduce Rejecting Rule-based Fine-Tuning (R2FT), a post-hoc training scheme that better aligns tokens at positions far from context. Our methods achieve state-of-the-art results on open-ended generation benchmarks (e.g., AlpacaEval) among diffusion LM baselines, with significantly lower step size than previous works, demonstrating both speed and quality improvements.

Ссылки и действия