Ultra-Fast Language Generation via Discrete Diffusion Divergence Instruct

2509.25035v1 cs.CL, cs.AI, cs.LG 2025-10-01
Авторы:

Haoyang Zheng, Xinyang Liu, Cindy Xiangrui Kong, Nan Jiang, Zheyuan Hu, Weijian Luo, Wei Deng, Guang Lin

Резюме на русском

## Контекст Современные технологии генерации текстов являются ключевым решением для многих приложений в области искусственного интеллекта, включая поисковые системы, транскрипцию речи, автоматическое создание контента и интерактивные системы. Однако существуют серьезные проблемы, связанные с производительностью и качеством генерируемых текстов. Например, методы основанные на марковских моделях часто страдают от низкой скорости генерации и неэффективности в обработке больших данных. Другие подходы, такие как GPT-2, требуют огромных ресурсов и времени для обучения, что ограничивает их применение в реальном времени. Из этого вытекает необходимость в разработке быстрых и эффективных методов для генерации текстов, которые могли бы обеспечить высокое качество и мгновенную реакцию. ## Метод Метод DiDi-Instruct (Discrete Diffusion Divergence Instruct) представляет собой новую архитектуру, основанную на дискретной диффузии и инструктивном обучении. Основные идеи заключаются в инициализации модели с помощью предварительно обученной дискретной диффузионной модели (dLLM) и применении метода минимизации клеткового кросс-энтропийного расхождения (KL-divergence). Модель DiDi-Instruct использует групповую нормализацию награды, метод соответствия промежуточных состояний и семплер с опорой на награду (RGAS) для улучшения стабильности обучения, покрытия модели и производительности при интерпретации. Теоретический фреймворк основывается на минимизации интегрального расхождения KL, что позволяет обеспечить быструю и точную генерацию текстов. ## Результаты Эксперименты проводились на датасетосе OpenWebText. Модель DiDi-Instruct демонстрирует существенные преимущества по сравнению с другими методами. Например, она при 64-кратном ускорении показывает то же самое качество генерируемых текстов по отношению к данным GPT-2. Для 128 итераций диффузионного процесса DiDi-Instruct достигает значения perplexity 18.4, что значительно выше чем у других методов. Эти результаты достигнуты с минимальной потерей энтропии (менее 1%) и 20-кратно меньшим временем обучения. Также были проведены абляционные исследования, подтвердившее эффективность включенных техник, таких как групповая нормализация награды и RGAS. ## Значимость Метод DiDi-Instruct может быть применен в различных областях, где необходима быстрая генерация текстов, включая транскрипцию речи, синтез речи, генерацию контента и интерактивные системы. Он обеспечивает высокое качество текста с наименьшими затратами ресурсов и времени. Этот подход имеет перспективу в уско

Abstract

Fast generation of language texts is the holy grail that people pursue in the AI era. In this work, we introduced Discrete Diffusion Divergence Instruct (DiDi-Instruct), a training-based method that leads to fast language generation models by initializing from a pre-trained (masked) discrete diffusion language model (dLLM). The resulting DiDi-Instruct model outperforms the dLLM counterparts and the GPT-2 baseline with 64x acceleration. In the theoretical part of the paper, we build the foundation of DiDi-Instruct in a framework of integral KL-divergence minimization, with practical training algorithms. We also introduce techniques like grouped reward normalization, intermediate-state matching, and the reward-guided ancestral sampler (RGAS) that significantly improve the training stability, the model coverage, and the inference performances. On OpenWebText, DiDi-Instruct outperforms all accelerated language generation models as well as the GPT-2 baseline and the standard dLLMs, achieving sample perplexities ranging from 62.2 (8 NFEs) to 18.4 (128 NFEs). These performance gains are accomplished with a negligible entropy loss of about 1% and 20x less additional training wall-clock time. We further validate the robustness and effectiveness of DiDi-Instruct through extensive ablation studies, model scaling, and the generation of discrete protein sequences. In conclusion, DiDi-Instruct is an efficient yet effective distillation method, enabling language generation in the blink of an eye. We will release both code and models at github.com/haoyangzheng-ai/didi-instruct.

Ссылки и действия