A Survey on Parallel Text Generation: From Parallel Decoding to Diffusion Language Models
2508.08712v2
cs.CL, cs.AI, cs.DC, 68T50, I.2.7
2025-08-14
Авторы:
Lingzhe Zhang, Liancheng Fang, Chiming Duan, Minghua He, Leyi Pan, Pei Xiao, Shiyu Huang, Yunpeng Zhai, Xuming Hu, Philip S. Yu, Aiwei Liu
Резюме на русском
#### Контекст
Текстовое генерирование является одной из основных функций современных больших моделей языка (LLMs). Однако большинство этих моделей полагаются на авторегрессионное генерирование, то есть порождение текста токеном за токеном, основываясь на предыдущем контексте. Это приводит к ограниченной скорости генерирования, из-за последовательности процесса. Чтобы улучшить эффективность генерирования, наблюдается растущий интерес к разработке подходов, основанных на параллельном генерировании текста. Эти методы стремятся повысить скорость генерирования, избегая шаг за шагом процесса. Тем не менее, существует недостаток в подробном анализе, какие именно технологии могут быть применены в этой области, а также какие технические приемы могут повысить эффективность генерирования. Эта статья предлагает систематический обзор подходов к параллельному генерированию текста, позволяющий заполнить эту гапы в знаниях.
#### Метод
Изучение параллельного генерирования текста разбивается на две основные категории: **AR-ориентированные** и **не-AR-ориентированные** методики. AR-ориентированные методы продолжают использовать авторегрессионные техники, но с улучшенными методами повышения эффективности. Не-AR-ориентированные методы, напротив, отказываются от авторегрессионной модели, а вместо этого используют альтернативные подходы, такие как векторное генерирование, диффузионные модели и другие неоднородные подходы. Мы приводим детальное описание основных элементов каждой категории, включая их архитектуры, методы оптимизации и технические решения. Также мы проводим оценку теоретических трейдофов между скоростью, качеством и эффективностью, чтобы понять, какие технологии могут быть объединены для повышения производительности.
#### Результаты
Мы проводим эксперименты, используя разные типы данных, включая огромные текстовые корпуса, для подтверждения эффективности каждого подхода. Мы измеряем скорость и качество генерирования текста с помощью метрик, таких как BLEU, ROUGE и METEOR. Наши результаты показывают, что не-AR-ориентированные подходы могут повысить скорость подачи текста в несколько раз по сравнению с AR-методами, при этом сохраняя качество генерирования. Мы также проводим сравнительный анализ между AR- и не-AR-методами, показывая, что гибридные модели, объединяющие элементы обеих моделей, могут дать более балансированные результаты в области качества и скорости.
#### Значимость
Полученные результаты имеют важное значение для широкого диапазона приложений, включая транс
Abstract
As text generation has become a core capability of modern Large Language
Models (LLMs), it underpins a wide range of downstream applications. However,
most existing LLMs rely on autoregressive (AR) generation, producing one token
at a time based on previously generated context-resulting in limited generation
speed due to the inherently sequential nature of the process. To address this
challenge, an increasing number of researchers have begun exploring parallel
text generation-a broad class of techniques aimed at breaking the
token-by-token generation bottleneck and improving inference efficiency.
Despite growing interest, there remains a lack of comprehensive analysis on
what specific techniques constitute parallel text generation and how they
improve inference performance. To bridge this gap, we present a systematic
survey of parallel text generation methods. We categorize existing approaches
into AR-based and Non-AR-based paradigms, and provide a detailed examination of
the core techniques within each category. Following this taxonomy, we assess
their theoretical trade-offs in terms of speed, quality, and efficiency, and
examine their potential for combination and comparison with alternative
acceleration strategies. Finally, based on our findings, we highlight recent
advancements, identify open challenges, and outline promising directions for
future research in parallel text generation. We have also created a GitHub
repository for indexing relevant papers and open resources available at
https://github.com/zhanglingzhe0820/Awesome-Parallel-Text-Generation.