Selective Classifier-free Guidance for Zero-shot Text-to-speech

2509.19668v1 eess.AS, cs.AI, cs.SD 2025-09-26

Авторы:

John Zheng, Farhad Maleki

Резюме на русском

## Контекст Задача zero-shot text-to-speech (TTS), которая предполагает генерацию речевого сигнала на основе текстового ввода без предварительного обучения для конкретного голоса, сталкивается с значительными вызовами. Особенностью этой задачи является необходимость достичь баланса между точностью репрезентации голоса (fidelity to the target speaker) и поддержанием логики текста (adherence to text content). Данный вопрос также связан с ограниченностью традиционных моделей TTS в области поддержки новых голосов и текстовых стилей без предварительной дорогостоящей тренировки модели. В этом контексте появились различные подходы к улучшению речевой модели, в том числе такие, как увеличение динамической области генерации и внедрение новых методов адаптации. Однако существуют проблемы в достижении краткосрочного равновесия между фидбэком текста и аудиогенерацией. Одним из таких подходов является метод classifier-free guidance (CFG), который использовался в области изображения, но до сих пор не широко применялся в TTS. ## Метод Методология, рассматриваемая в этой работе, основывается на применении CFG в TTS, с фокусом на разделении условий (separated-condition CFG) для получения более тонкой контролируемой генерации. В рамках этого подхода, условия разделяются на две части: одно для спектральной модели, другая - для генерации речевых отсчетов (mel-spectrograms). Это позволяет экспериментировать с различными стратегиями генерации в зависимости от характера текста и особенностей голоса. Кроме того, в работе используются методы адаптации CFG, которые позволяют менять степень влияния гида в зависимости от стадии генерации: на ранних этапах применяется стандартный CFG, а на поздних - стратегия selective CFG. Такой подход предназначен для достижения оптимального баланса между text adherence и speaker similarity. ## Результаты В ходе экспериментов было проведено опробование CFG в различных моделях TTS, включая работу с двумя разными языками - английским и китайским (Mandarin). Было выяснено, что применение CFG, как оно применялось в изображении, не приводит к значительным улучшениям в TTS. Однако, применение разделенных условий CFG позволило достичь значительного улучшения speaker similarity без существенного потери text adherence. Несмотря на это, результаты показали, что эффективность selective CFG значительно зависит от типа текстовой репрезентации. В частности, при использовании двух разных языков (английский и китайский), даже с одинаковой моделью, можно наблюдать различия в выполнении подобного подхода. ## Значимость Полученные результаты могут иметь большое значение в области TTS, особенно для технологий, требующих краткосрочного баланса между текстовой и речевой ин

Abstract

In zero-shot text-to-speech, achieving a balance between fidelity to the target speaker and adherence to text content remains a challenge. While classifier-free guidance (CFG) strategies have shown promising results in image generation, their application to speech synthesis are underexplored. Separating the conditions used for CFG enables trade-offs between different desired characteristics in speech synthesis. In this paper, we evaluate the adaptability of CFG strategies originally developed for image generation to speech synthesis and extend separated-condition CFG approaches for this domain. Our results show that CFG strategies effective in image generation generally fail to improve speech synthesis. We also find that we can improve speaker similarity while limiting degradation of text adherence by applying standard CFG during early timesteps and switching to selective CFG only in later timesteps. Surprisingly, we observe that the effectiveness of a selective CFG strategy is highly text-representation dependent, as differences between the two languages of English and Mandarin can lead to different results even with the same model.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Selective Classifier-free Guidance for Zero-shot Text-to-speech

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

BERT-APC: A Reference-free Framework for Automatic Pitch Correction via Musical ...

EchoFake: A Replay-Aware Dataset for Practical Speech Deepfake Detection

DroneAudioset: An Audio Dataset for Drone-based Search and Rescue

Unsupervised Speech Enhancement using Data-defined Priors

Data-Efficient ASR Personalization for Non-Normative Speech Using an Uncertainty...

Навигация