The State Of TTS: A Case Study with Human Fooling Rates

2508.04179v1 cs.CL, cs.LG, cs.SD, eess.AS 2025-08-09
Авторы:

Praveen Srinivasa Varadhan, Sherry Thomas, Sai Teja M. S., Suvrat Bhooshan, Mitesh M. Khapra

Резюме на русском

**Резюме** В статье предлагается Human Fooling Rate (HFR) — метрика, оценивающая вероятность того, что машинно-генерируемое речью может быть путана с речью человека. Авторы проводят широкомасштабное тестирование открытых и коммерческих TTS-систем и выявляют ключевые проблемы: (i) теории о «человеческом качестве», основанных на CMOS, часто не проходят человеческий тест на обман, (ii) для точного бенчмаркинга TTS следует использовать данные, где звучание человека достигает высокого HFR, так как сравнение с маловыразительными референсами снижает степень требований, (iii) коммерческие модели подходят к человеческому уровню в zero-shot сценариях, в то время как открытые системы сложностями страдают при работе с естественным разговорным языком, (iv) тестирование на высококачественных данных улучшает реализм, но не полностью приближает результаты к уровню человеческого. Основной вывод — необходимо развивать более реалистичные, человеко-центричные методы оценки в дополнение к субъективным тестам.

Abstract

While subjective evaluations in recent years indicate rapid progress in TTS, can current TTS systems truly pass a human deception test in a Turing-like evaluation? We introduce Human Fooling Rate (HFR), a metric that directly measures how often machine-generated speech is mistaken for human. Our large-scale evaluation of open-source and commercial TTS models reveals critical insights: (i) CMOS-based claims of human parity often fail under deception testing, (ii) TTS progress should be benchmarked on datasets where human speech achieves high HFRs, as evaluating against monotonous or less expressive reference samples sets a low bar, (iii) Commercial models approach human deception in zero-shot settings, while open-source systems still struggle with natural conversational speech; (iv) Fine-tuning on high-quality data improves realism but does not fully bridge the gap. Our findings underscore the need for more realistic, human-centric evaluations alongside existing subjective tests.

Ссылки и действия

Связанные статьи

CarelessWhisper: Turning Whisper into a Causal Streaming Model

#### Контекст **Automatic Speech Recognition (ASR)** — одна из наиболее активно развивающихся областей искусственного ин...

2025-08-19

Text to Speech System for Meitei Mayek Script

## Контекст Маніпурский язык является языком, широко распространенным в Северо-Восточной регионе Индии. Он использует с...

2025-08-13

How Does a Deep Neural Network Look at Lexical Stress?

## Контекст Глубокие нейронные сети (DNN) доказали свою эффективность в обработке языка, особенно в сфере распознавания ...

2025-08-13