Mitigating Hallucinations in LM-Based TTS Models via Distribution Alignment Using GFlowNets

2508.15442v1 eess.AS, cs.AI, cs.SD 2025-08-23
Авторы:

Chenlin Liu, Minghui Fang, Patrick Zhang, Wei Zhou, Jie Gao, Jiqing Han

Резюме на русском

#################### ## Контекст #################### Генеративные модели текста-na-речь (TTS), основанные на языковых моделях (LM), стали популярными в связи с их возможностью генерировать естественную и естественно выраженную речь. Однако, эти модели часто сталкиваются с проблемой "фантомных" выводов (hallucinations), когда генерируемый синтетический текст отклоняется от оригинального ввода. Такие ошибки могут привести к затруднению понимания речи, особенно в критических сценариях, таких как ассистирующие технологии и синтез речи в системах распознавания речи. Существуют существующие стратегии, стремящиеся устранить эту проблему, но они либо требуют больших вычислительных ресурсов, либо влияют на производительность модели во время выполнения. Это создает необходимость в эффективном и масштабируемом подходе для устранения этих проблем. #################### ## Метод #################### В данной работе предлагается GFlowNet-guided distribution AlignmenT (GOAT) — пост-тренировочный фреймворк для устранения "фантомных" выводов в LM-based TTS. Методология GOAT основывается на анализе неопределенности модели, который демонстрирует сильную положительную корреляцию между высоким уровнем неопределенности и высоким показателем фантомных выводов. Траектория генерации речи представляется как задача оптимизации распределения потока. Для этого предложена усовершенствованная структура Subtrajectory Balance, а также добавлена новая целевая дистрибуция с учетом sharpened internal reward. Для повышения устойчивости и баланса производительности в рамках GOAT внедрено декремент реварда (reward temperature decay) и оптимизацию learning rate. #################### ## Результаты #################### Проведенные эксперименты показали, что GOAT позволяет существенно улучшить качество синтеза речи, снизивший character error rate (CER) на трудных тестовых случаях на более чем 50%. Более того, GOAT позволили снизить неопределенность модели до 58%, что указывает на ее высокую общероботуемость и эффективность в устранении "фантомных" выводов. Эти результаты были получены без дополнительных ресурсов или повышенных затрат на выполнение. #################### ## Значимость #################### Предлагаемый подход имеет широкие потенциальные применения в сфере генеративных текстов-на-речь, в том числе применения в синтезе речи для ассистирующих технологий, систем распознавания речи и живой связи с пользователем. Одним из основных преимуществ GOAT является его эффективность в решении проблемы "фантомных" выводов с минимальными затратами на ресурсы и время выполнения. Этот подход может стать ключевым элементом в создании более надежных и точных текстовых-на-речь систем. #################### ## Выводы #################### В итоге, GOAT представляет собой прорыв в области устранения "фантомных" выводов в LM-based

Abstract

Language Model (LM)-based Text-to-Speech (TTS) systems often generate hallucinated speech that deviates from input text. Existing mitigation strategies either demand excessive training resources or introduce significant inference latency. In this paper, we propose GFlOwNet-guided distribution AlignmenT (GOAT) for LM-based TTS, a post-training framework that mitigates hallucinations without relying on massive resources or inference cost. Specifically, we first conduct an uncertainty analysis, revealing a strong positive correlation between hallucination and model uncertainty. Based on this, we reformulate TTS generation as a trajectory flow optimization problem and introduce an enhanced Subtrajectory Balance objective together with a sharpened internal reward as target distribution. We further integrate reward temperature decay and learning rate optimization for stability and performance balance. Extensive experiments show that GOAT reduce over 50% character error rates on challenging test cases and lowering uncertainty by up to 58%, demonstrating its strong generalization ability and effectiveness.

Ссылки и действия

Связанные статьи

Unsupervised Speech Enhancement using Data-defined Priors

#### Контекст Улучшение речевых сигналов — ключевая задача в области обработки звука, нацеленная на повышение чёткости ...

2025-10-01

Data-Efficient ASR Personalization for Non-Normative Speech Using an Uncertainty...

## Контекст Основной акцент в данном исследовании размещен на развитии эффективных методов персонализации автоматической...

2025-09-26