FS-DFM: Fast and Accurate Long Text Generation with Few-Step Diffusion Language Models
2509.20624v1
cs.CL, cs.AI, cs.LG
2025-09-26
Авторы:
Amin Karimi Monsefi, Nikhil Bhendawade, Manuel Rafael Ciosici, Dominic Culver, Yizhe Zhang, Irina Belousova
Резюме на русском
## Контекст
Поиск эффективных способов генерации длинных текстов представляется важной задачей в области искусственного интеллекта. Автороргительные языковые модели (ARMs) способны предсказывать текст с высокой точностью, но они являются сериальными по своей природе, что приводит к долгому времени выполнения при генерации длинных строк. Другой подход — **Diffusion Language Models (DLMs)** — объединяет серии малых изменений, что позволяет выполнять процесс параллельно. Однако для достижения высокого качества они требуют многократных проходов, что опять же сказывается на производительности. Таким образом, существует необходимость в моделях, которые сочетали бы высокую эффективность и качество генерации.
## Метод
Предлагаемая модель, **FS-DFM (Few-Step Discrete Flow-Matching)**, является продолжением идей Diffusion Language Models, но работает с меньшим числом шагов. **Ключевая идея** заключается в том, чтобы сделать число шагов явным параметром и обучить модель для того, чтобы она сохраняла качество при различных значениях этого параметра. Для этого используется **техника потокового соответствия**, которая позволяет шагам быть более точными и эффективными. Также в модели используется **правило обновления**, которое предотвращает перебои в процессе обучения. Эта модель оснащена **сильным учителем**, который предоставляет управляющие сигналы для уровней глубины диффузии. Эти особенности обеспечивают повышенную устойчивость и контролируемость генерации.
## Результаты
В ходе экспериментов FS-DFM показала себя как модель, которая не только сохраняет качество, но и повышает производительность. Например, с 8 шагами создания текста FS-DFM достигла той же точности (точность в прогнозировании слов — perplexity), что и модель с 1024-шаговым подходом, но со скоростью генерации **128 раз быстрее**. Это приводит к **значительным выигрышам в скорости и эффективности** при генерации длинных текстов, без ущерба качеству.
## Значимость
Разработанная модель имеет **широкие области применения** в сферах, где необходимо быстро и качественно генерировать длинные тексты, например, в генерации отчетов, протоколов, описаний и текстов для машинного обучения. Основные **преимущества** FS-DFM заключаются в **высокой производительности**, **контролируемости** и **гибкости**. Будущие исследования будут ориентированы на улучшение точности модели и расширение её возможностей для работы с различными аспектами длинных текстов, таких как семантическая структура и контекстная зависимость.
## Выводы
FS-DFM демонстрирует эффективность **двухступенчатого подхода** к генерации текстов, который объединяет простоту
Abstract
Autoregressive language models (ARMs) deliver strong likelihoods, but are
inherently serial: they generate one token per forward pass, which limits
throughput and inflates latency for long sequences. Diffusion Language Models
(DLMs) parallelize across positions and thus appear promising for language
generation, yet standard discrete diffusion typically needs hundreds to
thousands of model evaluations to reach high quality, trading serial depth for
iterative breadth. We introduce FS-DFM, Few-Step Discrete Flow-Matching. A
discrete flow-matching model designed for speed without sacrificing quality.
The core idea is simple: make the number of sampling steps an explicit
parameter and train the model to be consistent across step budgets, so one big
move lands where many small moves would. We pair this with a reliable update
rule that moves probability in the right direction without overshooting, and
with strong teacher guidance distilled from long-run trajectories. Together,
these choices make few-step sampling stable, accurate, and easy to control. On
language modeling benchmarks, FS-DFM with 8 sampling steps achieves perplexity
parity with a 1,024-step discrete-flow baseline for generating 1,024 tokens
using a similar-size model, delivering up to 128 times faster sampling and
corresponding latency/throughput gains.
Ссылки и действия
Дополнительные ресурсы: