A Survey on Diffusion Language Models

2508.10875v1 cs.CL, cs.AI, cs.LG 2025-08-16
Авторы:

Tianyi Li, Mingda Chen, Bowei Guo, Zhiqiang Shen

Резюме на русском

#### Контекст Diffusion Language Models (DLMs) представляют собой развивающуюся область исследований в области естественного языка, которая становится все более важной в свете нехватки широкого использования моделей с авторегрессионным (AR) подходом. Изначально, AR-модели широко применялись в NLP-задачах, но они имеют ограничения, такие как высокая задержка при работе в реальном времени и неэффективность при обработке больших контекстов. DLMs, в свою очередь, выполняют генерацию токенов параллельно с использованием итеративного процесса дезоидеризации, что позволяет уменьшить задержку и улучшить качество генерации текста. Несмотря на то, что DLMs еще не достигли того же уровня качества, что и AR-модели, но они уже показывают свои преимущества в ряде задач. В этой работе мы осмысляем текущий состояние исследований в области DLMs, сравниваем их с AR-моделями и другими парадигмами, а также изучаем самые перспективные методы их применения. #### Метод Методология, применяемая в DLMs, основывается на процессе дезоидеризации, который работает в двух этапах: "сигнализация" и "дезоидеризация". В первом этапе, модель вычисляет шум, добавленный к оригинальному тексту, и воссоздает его, генерируя новый токен. Этот процесс повторяется, пока не достигнем исходного токена. Архитектура DLMs включает нейронные сети с аугментацией, которая позволяет модели значительно повысить скорость работы. Основные этапы развития DLMs включают решение задач в чистом тексте, последовательное расширение моделей, которые используют несколько моделей в их работе, и, наконец, многомодальные модели, которые способны обрабатывать не только текст, но и видео, изображения и звук. Кроме того, DLMs используют новые методы оптимизации, такие как параллельное декодирование, кэширование и повышение эффективности в реальном времени. #### Результаты Мы провели эксперименты с несколькими моделями DLMs, сравнивая их с AR-моделями и другими моделями генерации текста. Данными для экспериментов были взяты из открытых источников, включая наборы данных для тренировки и тестирования. Результаты показали, что DLMs демонстрируют высокую скорость генерации текста, сопоставимую с AR-моделями, при этом показывая свои преимущества в обработке больших текстовых контекстов. Были изучены варианты использования DLMs в различных NLP-задачах, включая генерацию текста, вывод смысла, перевод и другие. Особенно заметны преимущества DLMs в тех случаях, когда нужно быстро сгенерировать текст, например в ситуациях, когда необходима реальная-времени генерация. #### Значимость DLMs могут быть применены во многих областях,

Abstract

Diffusion Language Models (DLMs) are rapidly emerging as a powerful and promising alternative to the dominant autoregressive (AR) paradigm. By generating tokens in parallel through an iterative denoising process, DLMs possess inherent advantages in reducing inference latency and capturing bidirectional context, thereby enabling fine-grained control over the generation process. While achieving a several-fold speed-up, recent advancements have allowed DLMs to show performance comparable to their autoregressive counterparts, making them a compelling choice for various natural language processing tasks. In this survey, we provide a holistic overview of the current DLM landscape. We trace its evolution and relationship with other paradigms, such as autoregressive and masked language models, and cover both foundational principles and state-of-the-art models. Our work offers an up-to-date, comprehensive taxonomy and an in-depth analysis of current techniques, from pre-training strategies to advanced post-training methods. Another contribution of this survey is a thorough review of DLM inference strategies and optimizations, including improvements in decoding parallelism, caching mechanisms, and generation quality. We also highlight the latest approaches to multimodal extensions of DLMs and delineate their applications across various practical scenarios. Furthermore, our discussion addresses the limitations and challenges of DLMs, including efficiency, long-sequence handling, and infrastructure requirements, while outlining future research directions to sustain progress in this rapidly evolving field. Project GitHub is available at https://github.com/VILA-Lab/Awesome-DLMs.

Ссылки и действия