📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня
Авторы:

Ngoc-Son Nguyen, Hieu-Nghia Huynh-Nguyen, Thanh V. T. Tran, Truong-Son Hy, Van Nguyen

#### Контекст Zero-shot Text-to-Speech (TTS) — это задача синтеза речи, которая нацелена на то, чтобы создать голос, который бы повторял голос неизвестного речи, используя только короткий референсный звуковой фрагмент. Это задача требует не только подгонки голосового стиля, но и точной моделировании просодических атрибутов, таких как тембр, ритм и интонация. Несмотря на то, что некоторые последние подходы, основанные на языковых моделях, диффузии и потоковой моделировании, демонстрируют уверенные результаты в этой области, они по-прежнему страдают от медлительных процессов инференции и репититивных артефактов. Выбор сжатых кодировок речи, таких как дискретные значения, в качестве исходных данных для диффузионных моделей может улучшить эффективность и качество синтеза речи. Именно этот принцип стал основой для разработки DiFlow-TTS. #### Метод DiFlow-TTS — это первая модель, в которой применяется полностью дискретное моделирование потоков для синтеза речи. Модель использует факторизованные представления речи, включая звуковые атрибуты, ритм и акцент, которые основываются на дискретных кодированных символах. Она применяет дискретные диффузионные модели для точного моделирования этих атрибутов. Для улучшения произносимости и стиля голоса DiFlow-TTS применяет вкладывание контекста, позволяя модели учитывать текст, просодические и акустические атрибуты от ссылочного речи. Эта модель также использует независимые механизмы предсказания для просодических и акустических деталей, что позволяет детально управлять каждым аспектом речи. #### Результаты Наши эксперименты показали, что DiFlow-TTS превосходит существующие подходы по многим ключевым показателям. Она достигает высокого уровня природности речи, точности воспроизведения звуковых атрибутов и стиля речи. Благодаря факторизованной архитектуре, модель обеспечивает низкую задержку инференции и способна синтезировать речь до 25.8 раз быстрее, чем существующие модели. Эксперименты проводились на различных датасетах речи, и результаты показали, что DiFlow-TTS эффективно моделирует просодические и акцентные характеристики, даже при очень коротких референсных фрагментах. #### Значимость DiFlow-TTS открывает новые возможности для дискретных диффузионных моделей в области текстового говорящего ассистента. Ее применение может иметь значительное влияние в сферах, где требуется высококачественный синтез речи с минимальной задержкой, таких как видеоконференцсвязь, голосовые помощники и синтез речи для личных устройств. Благодаря своему компактному размеру модели и быстрой инференции, DiFlow-TTS может быть испо
Annotation:
Zero-shot Text-to-Speech (TTS) aims to synthesize high-quality speech that mimics the voice of an unseen speaker using only a short reference sample, requiring not only speaker adaptation but also accurate modeling of prosodic attributes. Recent approaches based on language models, diffusion, and flow matching have shown promising results in zero-shot TTS, but still suffer from slow inference and repetition artifacts. Discrete codec representations have been widely adopted for speech synthesis, ...
ID: 2509.09631v2 cs.SD, cs.CL, cs.CV
Авторы:

Ngoc-Son Nguyen, Hieu-Nghia Huynh-Nguyen, Thanh V. T. Tran, Truong-Son Hy, Van Nguyen

#### Контекст Zero-shot Text-to-Speech (TTS) — это интересная область исследований, нацеленная на создание речи, которая лояльно повторяет голос невидимого речевого агента, используя всего несколько секунд его речи. Это задача требует не только интеллектуального адаптирования к речевому стилю, но также точного моделирования просодических признаков. Несмотря на некоторые прогрессы, существующие методы, основанные на моделях языка, диффузии и потоковых методах, страдают от медлительной обработки и проблем с повторениями. Моделирование дискретных кодов звука в синтезе речи получило нарастающий интерес, так как дискретные потоковые модели могут предложить новые подходы к решению этих проблем. Однако, существующие потоковые методы часто инкапсулируют дискретные токены в подходящий контекст, что может привести к ухудшению использования преимуществ дискретной структуры. #### Метод Мы предлагаем DiFlow-TTS, первую модель, основанную на дискретном потоковом подходе для текстового голос synth. Она использует важное значение связи между текстовым содержанием и просодическими признаками, включая ряд моделей потоков, которые разделяют просодические и акустические признаки. Эта универсальная архитектура позволяет моделировать факторно разделенные атрибуты речи, чтобы обеспечить эффективное клонирование голоса без тренировки. Для улучшения ясности и эффективности, мы применяем **диффузионные формальности**, чтобы обеспечить точное моделирование звуков, а также используем **контекстное обучение**, чтобы учитывать речевые стили и ситуации. #### Результаты Мы проводили эксперименты на основе нескольких ключевых метрик: **naturalness**, **speaker style preservation**, **prosody preservation** и **energy control**. Наши результаты показали, что DiFlow-TTS превосходит существующие алгоритмы, демонстрируя значительное улучшение в **speaker adaptation** и **low-latency inference**. Например, в тестах на **real-time speech synthesis**, DiFlow-TTS обработал речь до 25.8 раз быстрее, чем существующие методы, при этом сохранив высокую точность. Модель также показала отличные результаты в уменьшении проблемы повторений и поддержании динамичности речи. #### Значимость DiFlow-TTS открывает новые возможности в **low-latency zero-shot TTS**, делая его применимым в реальных сценариях, таких как **voice assistants**, **audiobooks** и **real-time communication**. Наш подход уменьшает время обработки и улучшает качество речи, особенно в ситуациях, где необходима мгновенная реакция. Это может привести к улучшению интерфейсов, увеличению юзабилити и повышению доступности технологий TTS в различных приложениях. #### Выводы DiFlow-TTS — первый потоковый подход, который испо
Annotation:
Zero-shot Text-to-Speech (TTS) aims to synthesize high-quality speech that mimics the voice of an unseen speaker using only a short reference sample, requiring not only speaker adaptation but also accurate modeling of prosodic attributes. Recent approaches based on language models, diffusion, and flow matching have shown promising results in zero-shot TTS, but still suffer from slow inference and repetition artifacts. Discrete codec representations have been widely adopted for speech synthesis, ...
ID: 2509.09631v1 cs.SD, cs.CL, cs.CV