Fast and Fluent Diffusion Language Models via Convolutional Decoding and Rejective Fine-tuning
2509.15188v1
cs.CL, cs.AI, cs.LG, 68T50, I.2.7
2025-09-20
Авторы:
Yeongbin Seo, Dongha Lee, Jaehyung Kim, Jinyoung Yeo
Резюме на русском
#### Контекст
Существующие модели языка, основанные на авторегрессионной архитектуре (AR), генерируют текст по одному токену за раз. Это ограничивает их скорость инференса и приводит к неэффективности при больших объемах генерируемых данных. Одновременно, модели на основе диффузионного подхода (diffusion) позволяют проводить параллельную генерацию нескольких токенов, что обеспечивает повышенную скорость и параллелизм. Однако в существующих диффузионных моделях языка существует ключевая проблема — так называемый "long decoding-window problem", когда токены, генерируемые далеко от контекста входных данных, либо являются не относящимися к контексту, либо повторяются. Эта проблема ограничивает качество и скорость моделей. Нашим целью является исследование новых методов, улучшающих производительность диффузионных моделей языка, сохраняя их преимущества в скорости и параллелизме.
#### Метод
Для решения проблемы "long decoding-window problem" мы предлагаем два основных метода: **Convolutional Decoding (Conv)** и **Rejecting Rule-based Fine-Tuning (R2FT)**. **Conv** нормализует процесс генерации, уменьшая окно генерации токенов без жесткого разбиения на блоки. Это позволяет сохранить гармонию в тексте, повысить его целостность и сократить время генерации. **R2FT** — постобучение, предназначенное для точного выравнивания токенов, которые находятся далеко от контекста. Этот подход улучшает точность генерируемых моделями данных и их адекватность контексту. Мы использовали архитектуру базирующуюся на нейронных сетях, которая объединяет эти два метода для получения максимального эффекта.
#### Результаты
Мы провели эксперименты на открытых бенчмарках, таких как AlpacaEval. Результаты показали, что наш подход дает значительные улучшения как в скорости генерации, так и в качестве. Модель, использующая Conv и R2FT, демонстрирует значительно более высокую скорость генерации, чем существующие диффузионные модели, при этом сохраняя высокую точность и гармонию текста. Была достигнута лучшая скорость генерации с сохранением качества, что демонстрирует преимущества нашего подхода по сравнению с другими методами.
#### Значимость
Наш подход может быть применен в различных областях, где необходима быстрая и качественная генерация языка, например, в синтезе речи, в генерации текста для конкретных приложений, в области трансляции, и др. Он предоставляет два значительных преимущества: увеличение скорости и качества генерации, позволяя применять модели диффузионной генерации в реальном времени. Мы планируем продолжить работу над улучшением этих методов, особенно в
Abstract
Autoregressive (AR) language models generate text one token at a time, which
limits their inference speed. Diffusion-based language models offer a promising
alternative, as they can decode multiple tokens in parallel. However, we
identify a key bottleneck in current diffusion LMs: the long decoding-window
problem, where tokens generated far from the input context often become
irrelevant or repetitive. Previous solutions like semi-autoregressive address
this issue by splitting windows into blocks, but this sacrifices speed and
bidirectionality, eliminating the main advantage of diffusion models. To
overcome this, we propose Convolutional decoding (Conv), a normalization-based
method that narrows the decoding window without hard segmentation, leading to
better fluency and flexibility. Additionally, we introduce Rejecting Rule-based
Fine-Tuning (R2FT), a post-hoc training scheme that better aligns tokens at
positions far from context. Our methods achieve state-of-the-art results on
open-ended generation benchmarks (e.g., AlpacaEval) among diffusion LM
baselines, with significantly lower step size than previous works,
demonstrating both speed and quality improvements.