FS-DFM: Fast and Accurate Long Text Generation with Few-Step Diffusion Language Models

2509.20624v1 cs.CL, cs.AI, cs.LG 2025-09-26

Авторы:

Amin Karimi Monsefi, Nikhil Bhendawade, Manuel Rafael Ciosici, Dominic Culver, Yizhe Zhang, Irina Belousova

Резюме на русском

## Контекст Поиск эффективных способов генерации длинных текстов представляется важной задачей в области искусственного интеллекта. Автороргительные языковые модели (ARMs) способны предсказывать текст с высокой точностью, но они являются сериальными по своей природе, что приводит к долгому времени выполнения при генерации длинных строк. Другой подход — **Diffusion Language Models (DLMs)** — объединяет серии малых изменений, что позволяет выполнять процесс параллельно. Однако для достижения высокого качества они требуют многократных проходов, что опять же сказывается на производительности. Таким образом, существует необходимость в моделях, которые сочетали бы высокую эффективность и качество генерации. ## Метод Предлагаемая модель, **FS-DFM (Few-Step Discrete Flow-Matching)**, является продолжением идей Diffusion Language Models, но работает с меньшим числом шагов. **Ключевая идея** заключается в том, чтобы сделать число шагов явным параметром и обучить модель для того, чтобы она сохраняла качество при различных значениях этого параметра. Для этого используется **техника потокового соответствия**, которая позволяет шагам быть более точными и эффективными. Также в модели используется **правило обновления**, которое предотвращает перебои в процессе обучения. Эта модель оснащена **сильным учителем**, который предоставляет управляющие сигналы для уровней глубины диффузии. Эти особенности обеспечивают повышенную устойчивость и контролируемость генерации. ## Результаты В ходе экспериментов FS-DFM показала себя как модель, которая не только сохраняет качество, но и повышает производительность. Например, с 8 шагами создания текста FS-DFM достигла той же точности (точность в прогнозировании слов — perplexity), что и модель с 1024-шаговым подходом, но со скоростью генерации **128 раз быстрее**. Это приводит к **значительным выигрышам в скорости и эффективности** при генерации длинных текстов, без ущерба качеству. ## Значимость Разработанная модель имеет **широкие области применения** в сферах, где необходимо быстро и качественно генерировать длинные тексты, например, в генерации отчетов, протоколов, описаний и текстов для машинного обучения. Основные **преимущества** FS-DFM заключаются в **высокой производительности**, **контролируемости** и **гибкости**. Будущие исследования будут ориентированы на улучшение точности модели и расширение её возможностей для работы с различными аспектами длинных текстов, таких как семантическая структура и контекстная зависимость. ## Выводы FS-DFM демонстрирует эффективность **двухступенчатого подхода** к генерации текстов, который объединяет простоту

Abstract

Autoregressive language models (ARMs) deliver strong likelihoods, but are inherently serial: they generate one token per forward pass, which limits throughput and inflates latency for long sequences. Diffusion Language Models (DLMs) parallelize across positions and thus appear promising for language generation, yet standard discrete diffusion typically needs hundreds to thousands of model evaluations to reach high quality, trading serial depth for iterative breadth. We introduce FS-DFM, Few-Step Discrete Flow-Matching. A discrete flow-matching model designed for speed without sacrificing quality. The core idea is simple: make the number of sampling steps an explicit parameter and train the model to be consistent across step budgets, so one big move lands where many small moves would. We pair this with a reliable update rule that moves probability in the right direction without overshooting, and with strong teacher guidance distilled from long-run trajectories. Together, these choices make few-step sampling stable, accurate, and easy to control. On language modeling benchmarks, FS-DFM with 8 sampling steps achieves perplexity parity with a 1,024-step discrete-flow baseline for generating 1,024 tokens using a similar-size model, delivering up to 128 times faster sampling and corresponding latency/throughput gains.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

FS-DFM: Fast and Accurate Long Text Generation with Few-Step Diffusion Language Models

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Arbitrage: Efficient Reasoning via Advantage-Aware Speculation

Structured Document Translation via Format Reinforcement Learning

Principled RL for Diffusion LLMs Emerges from a Sequence-Level Perspective

Agreement-Constrained Probabilistic Minimum Bayes Risk Decoding

SUPERChem: A Multimodal Reasoning Benchmark in Chemistry

Навигация