DiFlow-TTS: Discrete Flow Matching with Factorized Speech Tokens for Low-Latency Zero-Shot Text-To-Speech
2509.09631v2
cs.SD, cs.CL, cs.CV
2025-09-15
Авторы:
Ngoc-Son Nguyen, Hieu-Nghia Huynh-Nguyen, Thanh V. T. Tran, Truong-Son Hy, Van Nguyen
Резюме на русском
#### Контекст
Zero-shot Text-to-Speech (TTS) — это задача синтеза речи, которая нацелена на то, чтобы создать голос, который бы повторял голос неизвестного речи, используя только короткий референсный звуковой фрагмент. Это задача требует не только подгонки голосового стиля, но и точной моделировании просодических атрибутов, таких как тембр, ритм и интонация. Несмотря на то, что некоторые последние подходы, основанные на языковых моделях, диффузии и потоковой моделировании, демонстрируют уверенные результаты в этой области, они по-прежнему страдают от медлительных процессов инференции и репититивных артефактов. Выбор сжатых кодировок речи, таких как дискретные значения, в качестве исходных данных для диффузионных моделей может улучшить эффективность и качество синтеза речи. Именно этот принцип стал основой для разработки DiFlow-TTS.
#### Метод
DiFlow-TTS — это первая модель, в которой применяется полностью дискретное моделирование потоков для синтеза речи. Модель использует факторизованные представления речи, включая звуковые атрибуты, ритм и акцент, которые основываются на дискретных кодированных символах. Она применяет дискретные диффузионные модели для точного моделирования этих атрибутов. Для улучшения произносимости и стиля голоса DiFlow-TTS применяет вкладывание контекста, позволяя модели учитывать текст, просодические и акустические атрибуты от ссылочного речи. Эта модель также использует независимые механизмы предсказания для просодических и акустических деталей, что позволяет детально управлять каждым аспектом речи.
#### Результаты
Наши эксперименты показали, что DiFlow-TTS превосходит существующие подходы по многим ключевым показателям. Она достигает высокого уровня природности речи, точности воспроизведения звуковых атрибутов и стиля речи. Благодаря факторизованной архитектуре, модель обеспечивает низкую задержку инференции и способна синтезировать речь до 25.8 раз быстрее, чем существующие модели. Эксперименты проводились на различных датасетах речи, и результаты показали, что DiFlow-TTS эффективно моделирует просодические и акцентные характеристики, даже при очень коротких референсных фрагментах.
#### Значимость
DiFlow-TTS открывает новые возможности для дискретных диффузионных моделей в области текстового говорящего ассистента. Ее применение может иметь значительное влияние в сферах, где требуется высококачественный синтез речи с минимальной задержкой, таких как видеоконференцсвязь, голосовые помощники и синтез речи для личных устройств. Благодаря своему компактному размеру модели и быстрой инференции, DiFlow-TTS может быть испо
Abstract
Zero-shot Text-to-Speech (TTS) aims to synthesize high-quality speech that
mimics the voice of an unseen speaker using only a short reference sample,
requiring not only speaker adaptation but also accurate modeling of prosodic
attributes. Recent approaches based on language models, diffusion, and flow
matching have shown promising results in zero-shot TTS, but still suffer from
slow inference and repetition artifacts. Discrete codec representations have
been widely adopted for speech synthesis, and recent works have begun to
explore diffusion models in purely discrete settings, suggesting the potential
of discrete generative modeling for speech synthesis. However, existing
flow-matching methods typically embed these discrete tokens into a continuous
space and apply continuous flow matching, which may not fully leverage the
advantages of discrete representations. To address these challenges, we
introduce DiFlow-TTS, which, to the best of our knowledge, is the first model
to explore purely Discrete Flow Matching for speech synthesis. DiFlow-TTS
explicitly models factorized speech attributes within a compact and unified
architecture. It leverages in-context learning by conditioning on textual
content, along with prosodic and acoustic attributes extracted from a reference
speech, enabling effective attribute cloning in a zero-shot setting. In
addition, the model employs a factorized flow prediction mechanism with
distinct heads for prosody and acoustic details, allowing it to learn
aspect-specific distributions. Experimental results demonstrate that DiFlow-TTS
achieves promising performance in several key metrics, including naturalness,
prosody, preservation of speaker style, and energy control. It also maintains a
compact model size and achieves low-latency inference, generating speech up to
25.8 times faster than the latest existing baselines.
Ссылки и действия
Дополнительные ресурсы: