Ultra-Fast Language Generation via Discrete Diffusion Divergence Instruct
2509.25035v1
cs.CL, cs.AI, cs.LG
2025-10-01
Авторы:
Haoyang Zheng, Xinyang Liu, Cindy Xiangrui Kong, Nan Jiang, Zheyuan Hu, Weijian Luo, Wei Deng, Guang Lin
Резюме на русском
## Контекст
Современные технологии генерации текстов являются ключевым решением для многих приложений в области искусственного интеллекта, включая поисковые системы, транскрипцию речи, автоматическое создание контента и интерактивные системы. Однако существуют серьезные проблемы, связанные с производительностью и качеством генерируемых текстов. Например, методы основанные на марковских моделях часто страдают от низкой скорости генерации и неэффективности в обработке больших данных. Другие подходы, такие как GPT-2, требуют огромных ресурсов и времени для обучения, что ограничивает их применение в реальном времени. Из этого вытекает необходимость в разработке быстрых и эффективных методов для генерации текстов, которые могли бы обеспечить высокое качество и мгновенную реакцию.
## Метод
Метод DiDi-Instruct (Discrete Diffusion Divergence Instruct) представляет собой новую архитектуру, основанную на дискретной диффузии и инструктивном обучении. Основные идеи заключаются в инициализации модели с помощью предварительно обученной дискретной диффузионной модели (dLLM) и применении метода минимизации клеткового кросс-энтропийного расхождения (KL-divergence). Модель DiDi-Instruct использует групповую нормализацию награды, метод соответствия промежуточных состояний и семплер с опорой на награду (RGAS) для улучшения стабильности обучения, покрытия модели и производительности при интерпретации. Теоретический фреймворк основывается на минимизации интегрального расхождения KL, что позволяет обеспечить быструю и точную генерацию текстов.
## Результаты
Эксперименты проводились на датасетосе OpenWebText. Модель DiDi-Instruct демонстрирует существенные преимущества по сравнению с другими методами. Например, она при 64-кратном ускорении показывает то же самое качество генерируемых текстов по отношению к данным GPT-2. Для 128 итераций диффузионного процесса DiDi-Instruct достигает значения perplexity 18.4, что значительно выше чем у других методов. Эти результаты достигнуты с минимальной потерей энтропии (менее 1%) и 20-кратно меньшим временем обучения. Также были проведены абляционные исследования, подтвердившее эффективность включенных техник, таких как групповая нормализация награды и RGAS.
## Значимость
Метод DiDi-Instruct может быть применен в различных областях, где необходима быстрая генерация текстов, включая транскрипцию речи, синтез речи, генерацию контента и интерактивные системы. Он обеспечивает высокое качество текста с наименьшими затратами ресурсов и времени. Этот подход имеет перспективу в уско
Abstract
Fast generation of language texts is the holy grail that people pursue in the
AI era. In this work, we introduced Discrete Diffusion Divergence Instruct
(DiDi-Instruct), a training-based method that leads to fast language generation
models by initializing from a pre-trained (masked) discrete diffusion language
model (dLLM). The resulting DiDi-Instruct model outperforms the dLLM
counterparts and the GPT-2 baseline with 64x acceleration. In the theoretical
part of the paper, we build the foundation of DiDi-Instruct in a framework of
integral KL-divergence minimization, with practical training algorithms. We
also introduce techniques like grouped reward normalization, intermediate-state
matching, and the reward-guided ancestral sampler (RGAS) that significantly
improve the training stability, the model coverage, and the inference
performances. On OpenWebText, DiDi-Instruct outperforms all accelerated
language generation models as well as the GPT-2 baseline and the standard
dLLMs, achieving sample perplexities ranging from 62.2 (8 NFEs) to 18.4 (128
NFEs). These performance gains are accomplished with a negligible entropy loss
of about 1% and 20x less additional training wall-clock time. We further
validate the robustness and effectiveness of DiDi-Instruct through extensive
ablation studies, model scaling, and the generation of discrete protein
sequences. In conclusion, DiDi-Instruct is an efficient yet effective
distillation method, enabling language generation in the blink of an eye. We
will release both code and models at github.com/haoyangzheng-ai/didi-instruct.
Ссылки и действия
Дополнительные ресурсы: