Eliminating stability hallucinations in llm-based tts models via attention guidance

2509.19852v1 cs.SD, cs.AI 2025-09-26
Авторы:

ShiMing Wang, ZhiHao Du, Yang Xiang, TianYu Zhao, Han Zhao, Qian Chen, XianGang Li, HanJie Guo, ZhenHua Ling

Резюме на русском

## Контекст Одна из основных проблем в LLM-based Text-to-Speech (TTS) моделях, таких как CosyVoice2, — стабильность произносимости. Эта проблема часто проявляется в виде звуковых репетиций, пропусков или неконсистентных синтезированных звуков. Эти "халлюцинации" в стабильности могут существенно снижать качество произносимого текста, особенно при использовании моделей в реальном времени. Исследователи стремятся найти решения, которые будут улучшать точность и стабильность TTS моделей, особенно в сложных условиях, таких как длинные фразы или специфические языковые конструкции. ## Метод Работа основывается на улучшении и использовании механизма внимания в LLM-based TTS моделях. Авторы предложили новый показатель — Optimal Alignment Score (OAS) — оценивающий уровень текст-голос алгебраического взаимодействия. Эта оценка создана с помощью Viterbi алгоритма, который позволяет анализировать качество синхронизации между текстовыми и аудио токенами. Далее, OAS используется для оптимизации тренировки CosyVoice2, используя метод Chain-of-Thought (CoT), чтобы улучшить непрерывность и стабильность в выдаче модели. Также, предыдущие значения внимания выступают в роли гида для студентской модели CosyVoice2, чтобы уменьшить репитантные или пропущенные звуки. ## Результаты Исследования проводились на Seed-TTS-Eval и CV3-Eval тестовых наборах. Авторы показали, что интеграция OAS и CoT в тренировочный процесс CosyVoice2 позволила существенно уменьшить стабильностные халлюцинации. Эксперименты показали, что модель CosyVoice2 стала более точной в произношении, с меньшим количеством звуковых пропусков и репетиций. Точность и стабильность модели были повышены без привлечения ненужных побочных эффектов, таких как низкая четкость голоса или неестественность произношения. ## Значимость Предложенные решения могут быть применены не только для CosyVoice2, но и для других LLM-based TTS моделей, которые страдают от стабильностных халлюцинаций. Это может оказаться полезным в ситуациях, когда необходимо высокое качество голосового синтеза, например, в трансляциях, играх, интерактивных системах и автоматизированных системах обработки запросов. Этот подход может повысить квалификацию и экономичность TTS моделей, что является ключевым преимуществом для их использования в промышленных приложениях. ## Выводы Авторы успешно устранили проблему стабильностных халлюцинаций в CosyVoice2, используя OAS и CoT. Дальнейшие исследования могут сфокусироваться на улучшении методик OAS для более сложных языковых структур и развитии моделей с ширейшим спектром применения. Эти улучшения могут быть важны для развития ин

Abstract

This paper focuses on resolving stability hallucinations (e.g., repetitive or omitted speech) in LLM-based Text-to-Speech (TTS) models by improving and leveraging the attention mechanism. First, we analyzed the alignment mechanism between text tokens and speech tokens in LLMs. We then proposed a metric termed the Optimal Alignment Score (OAS), which employs the Viterbi algorithm to evaluate text-speech alignment quality. Subsequently, OAS was integrated into the training of CosyVoice2 to assist LLMs in learning continuous, stable alignment. Additionally, the pre-trained attention value is employed to guide the training of the student CosyVoice2 via chain-of-thought (CoT), which further reduces stability hallucinations in synthesized speech. Experiments on the Seed-TTS-Eval and CV3-Eval test sets demonstrate that the proposed methods can effectively reduce the stability hallucinations of CosyVoice2 without introducing additional negative effects. The appendix is available at https://wsmzzz.github.io/llm_attn.

Ссылки и действия