Eliminating stability hallucinations in llm-based tts models via attention guidance
2509.19852v1
cs.SD, cs.AI
2025-09-26
Авторы:
ShiMing Wang, ZhiHao Du, Yang Xiang, TianYu Zhao, Han Zhao, Qian Chen, XianGang Li, HanJie Guo, ZhenHua Ling
Резюме на русском
## Контекст
Одна из основных проблем в LLM-based Text-to-Speech (TTS) моделях, таких как CosyVoice2, — стабильность произносимости. Эта проблема часто проявляется в виде звуковых репетиций, пропусков или неконсистентных синтезированных звуков. Эти "халлюцинации" в стабильности могут существенно снижать качество произносимого текста, особенно при использовании моделей в реальном времени. Исследователи стремятся найти решения, которые будут улучшать точность и стабильность TTS моделей, особенно в сложных условиях, таких как длинные фразы или специфические языковые конструкции.
## Метод
Работа основывается на улучшении и использовании механизма внимания в LLM-based TTS моделях. Авторы предложили новый показатель — Optimal Alignment Score (OAS) — оценивающий уровень текст-голос алгебраического взаимодействия. Эта оценка создана с помощью Viterbi алгоритма, который позволяет анализировать качество синхронизации между текстовыми и аудио токенами. Далее, OAS используется для оптимизации тренировки CosyVoice2, используя метод Chain-of-Thought (CoT), чтобы улучшить непрерывность и стабильность в выдаче модели. Также, предыдущие значения внимания выступают в роли гида для студентской модели CosyVoice2, чтобы уменьшить репитантные или пропущенные звуки.
## Результаты
Исследования проводились на Seed-TTS-Eval и CV3-Eval тестовых наборах. Авторы показали, что интеграция OAS и CoT в тренировочный процесс CosyVoice2 позволила существенно уменьшить стабильностные халлюцинации. Эксперименты показали, что модель CosyVoice2 стала более точной в произношении, с меньшим количеством звуковых пропусков и репетиций. Точность и стабильность модели были повышены без привлечения ненужных побочных эффектов, таких как низкая четкость голоса или неестественность произношения.
## Значимость
Предложенные решения могут быть применены не только для CosyVoice2, но и для других LLM-based TTS моделей, которые страдают от стабильностных халлюцинаций. Это может оказаться полезным в ситуациях, когда необходимо высокое качество голосового синтеза, например, в трансляциях, играх, интерактивных системах и автоматизированных системах обработки запросов. Этот подход может повысить квалификацию и экономичность TTS моделей, что является ключевым преимуществом для их использования в промышленных приложениях.
## Выводы
Авторы успешно устранили проблему стабильностных халлюцинаций в CosyVoice2, используя OAS и CoT. Дальнейшие исследования могут сфокусироваться на улучшении методик OAS для более сложных языковых структур и развитии моделей с ширейшим спектром применения. Эти улучшения могут быть важны для развития ин
Abstract
This paper focuses on resolving stability hallucinations (e.g., repetitive or
omitted speech) in LLM-based Text-to-Speech (TTS) models by improving and
leveraging the attention mechanism. First, we analyzed the alignment mechanism
between text tokens and speech tokens in LLMs. We then proposed a metric termed
the Optimal Alignment Score (OAS), which employs the Viterbi algorithm to
evaluate text-speech alignment quality. Subsequently, OAS was integrated into
the training of CosyVoice2 to assist LLMs in learning continuous, stable
alignment. Additionally, the pre-trained attention value is employed to guide
the training of the student CosyVoice2 via chain-of-thought (CoT), which
further reduces stability hallucinations in synthesized speech. Experiments on
the Seed-TTS-Eval and CV3-Eval test sets demonstrate that the proposed methods
can effectively reduce the stability hallucinations of CosyVoice2 without
introducing additional negative effects. The appendix is available at
https://wsmzzz.github.io/llm_attn.
Ссылки и действия
Дополнительные ресурсы: