Fairness in Dysarthric Speech Synthesis: Understanding Intrinsic Bias in Dysarthric Speech Cloning using F5-TTS

2508.05102v2 eess.AS, cs.AI 2025-08-12

Авторы:

Anuprabha M, Krishna Gurugubelli, Anil Kumar Vuppala

Резюме на русском

## Контекст В современной лингвистике и технологиях обработки речи широко распространены задачи создания синтетической речи, особенно в сфере ассистивных технологий. Несмотря на прогресс в синтезе речи, развитие методов синтеза речи для дизартрических голосов остается вызовом. Заболевания, вызывающие дизартрию, затрудняют нормальную речь, что чрезвычайно важно для помощи в общении через синтетические голоса. В то же время, существующие модели часто не учитывают различия в ситуациях дизартрии, что может привести к ухудшению качества и необходимости расширения моделей для более точного синтеза. ## Метод Мы используем модель F5-TTS для синтеза речи дизартрических голосов, основываясь на данных TORGO dataset. Методология включает эксперименты с анализом три основных аспекта: intelligibility (понятность речи), speaker similarity (близость к оригинальной речи) и prosody preservation (сохранение просодических характеристик). Для уточнения потенциальных необоснованных биасов в синтезированной речи, мы применяем фартерные метрики, такие как Disparate Impact и Parity Difference. Это позволяет проанализировать, насколько модель справляется с сохранением спикерских характеристик и соблюдением просодических паттернов. ## Результаты Наши результаты показали, что F5-TTS показывает высокую точность в создании понятной речи, но существуют существенные ухудшения в близости к образцу речи и сохранении просодических паттернов. Эти результаты подтверждают, что модель демонстрирует биаз в пользу intelligibility, при этом недостаточно уделяется внимания speaker similarity и prosody preservation. Такие результаты показывают, что F5-TTS может сильно зависеть от исходных данных и не всегда достаточно гибка в учении разнообразных дизартрических фонов. ## Значимость Результаты этого исследования имеют большую значимость для развития синтетических моделей в области дизартрического синтеза. Они позволяют понять потенциальные биазы и проблемы в современных моделях. Более того, данные результаты могут помочь в разработке более точных и справедливых моделей для ассистивных технологий, которые учитывают различные уровни дизартрии и помогают в создании более включающих технологий для сложного дизартрического голоса. ## Выводы В результате статьи были выявлены существенные биазы в F5-TTS, особенно в отношении intelligibility. Эти результаты могут послужить основой для будущих исследований в области справедливости в синтезе дизартрической речи. Мы предлагаем расширение модели F5-TTS для учета более широкого спектра дизартрических характеристик, чтобы повысить общую точность и создать более справедливую модель.

Abstract

Dysarthric speech poses significant challenges in developing assistive technologies, primarily due to the limited availability of data. Recent advances in neural speech synthesis, especially zero-shot voice cloning, facilitate synthetic speech generation for data augmentation; however, they may introduce biases towards dysarthric speech. In this paper, we investigate the effectiveness of state-of-the-art F5-TTS in cloning dysarthric speech using TORGO dataset, focusing on intelligibility, speaker similarity, and prosody preservation. We also analyze potential biases using fairness metrics like Disparate Impact and Parity Difference to assess disparities across dysarthric severity levels. Results show that F5-TTS exhibits a strong bias toward speech intelligibility over speaker and prosody preservation in dysarthric speech synthesis. Insights from this study can help integrate fairness-aware dysarthric speech synthesis, fostering the advancement of more inclusive speech technologies.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Fairness in Dysarthric Speech Synthesis: Understanding Intrinsic Bias in Dysarthric Speech Cloning using F5-TTS

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Revisiting Audio-language Pretraining for Learning General-purpose Audio Represe...

Open Source State-Of-the-Art Solution for Romanian Speech Recognition

AURA Score: A Metric For Holistic Audio Question Answering Evaluation

MuFFIN: Multifaceted Pronunciation Feedback Model with Interactive Hierarchical ...

On Deepfake Voice Detection -- It's All in the Presentation

Навигация