Selective Classifier-free Guidance for Zero-shot Text-to-speech
2509.19668v1
eess.AS, cs.AI, cs.SD
2025-09-26
Авторы:
John Zheng, Farhad Maleki
Резюме на русском
## Контекст
Задача zero-shot text-to-speech (TTS), которая предполагает генерацию речевого сигнала на основе текстового ввода без предварительного обучения для конкретного голоса, сталкивается с значительными вызовами. Особенностью этой задачи является необходимость достичь баланса между точностью репрезентации голоса (fidelity to the target speaker) и поддержанием логики текста (adherence to text content). Данный вопрос также связан с ограниченностью традиционных моделей TTS в области поддержки новых голосов и текстовых стилей без предварительной дорогостоящей тренировки модели.
В этом контексте появились различные подходы к улучшению речевой модели, в том числе такие, как увеличение динамической области генерации и внедрение новых методов адаптации. Однако существуют проблемы в достижении краткосрочного равновесия между фидбэком текста и аудиогенерацией. Одним из таких подходов является метод classifier-free guidance (CFG), который использовался в области изображения, но до сих пор не широко применялся в TTS.
## Метод
Методология, рассматриваемая в этой работе, основывается на применении CFG в TTS, с фокусом на разделении условий (separated-condition CFG) для получения более тонкой контролируемой генерации. В рамках этого подхода, условия разделяются на две части: одно для спектральной модели, другая - для генерации речевых отсчетов (mel-spectrograms). Это позволяет экспериментировать с различными стратегиями генерации в зависимости от характера текста и особенностей голоса.
Кроме того, в работе используются методы адаптации CFG, которые позволяют менять степень влияния гида в зависимости от стадии генерации: на ранних этапах применяется стандартный CFG, а на поздних - стратегия selective CFG. Такой подход предназначен для достижения оптимального баланса между text adherence и speaker similarity.
## Результаты
В ходе экспериментов было проведено опробование CFG в различных моделях TTS, включая работу с двумя разными языками - английским и китайским (Mandarin). Было выяснено, что применение CFG, как оно применялось в изображении, не приводит к значительным улучшениям в TTS. Однако, применение разделенных условий CFG позволило достичь значительного улучшения speaker similarity без существенного потери text adherence.
Несмотря на это, результаты показали, что эффективность selective CFG значительно зависит от типа текстовой репрезентации. В частности, при использовании двух разных языков (английский и китайский), даже с одинаковой моделью, можно наблюдать различия в выполнении подобного подхода.
## Значимость
Полученные результаты могут иметь большое значение в области TTS, особенно для технологий, требующих краткосрочного баланса между текстовой и речевой ин
Abstract
In zero-shot text-to-speech, achieving a balance between fidelity to the
target speaker and adherence to text content remains a challenge. While
classifier-free guidance (CFG) strategies have shown promising results in image
generation, their application to speech synthesis are underexplored. Separating
the conditions used for CFG enables trade-offs between different desired
characteristics in speech synthesis. In this paper, we evaluate the
adaptability of CFG strategies originally developed for image generation to
speech synthesis and extend separated-condition CFG approaches for this domain.
Our results show that CFG strategies effective in image generation generally
fail to improve speech synthesis. We also find that we can improve speaker
similarity while limiting degradation of text adherence by applying standard
CFG during early timesteps and switching to selective CFG only in later
timesteps. Surprisingly, we observe that the effectiveness of a selective CFG
strategy is highly text-representation dependent, as differences between the
two languages of English and Mandarin can lead to different results even with
the same model.
Ссылки и действия
Дополнительные ресурсы: