Fairness in Dysarthric Speech Synthesis: Understanding Intrinsic Bias in Dysarthric Speech Cloning using F5-TTS
2508.05102v2
eess.AS, cs.AI
2025-08-12
Авторы:
Anuprabha M, Krishna Gurugubelli, Anil Kumar Vuppala
Резюме на русском
## Контекст
В современной лингвистике и технологиях обработки речи широко распространены задачи создания синтетической речи, особенно в сфере ассистивных технологий. Несмотря на прогресс в синтезе речи, развитие методов синтеза речи для дизартрических голосов остается вызовом. Заболевания, вызывающие дизартрию, затрудняют нормальную речь, что чрезвычайно важно для помощи в общении через синтетические голоса. В то же время, существующие модели часто не учитывают различия в ситуациях дизартрии, что может привести к ухудшению качества и необходимости расширения моделей для более точного синтеза.
## Метод
Мы используем модель F5-TTS для синтеза речи дизартрических голосов, основываясь на данных TORGO dataset. Методология включает эксперименты с анализом три основных аспекта: intelligibility (понятность речи), speaker similarity (близость к оригинальной речи) и prosody preservation (сохранение просодических характеристик). Для уточнения потенциальных необоснованных биасов в синтезированной речи, мы применяем фартерные метрики, такие как Disparate Impact и Parity Difference. Это позволяет проанализировать, насколько модель справляется с сохранением спикерских характеристик и соблюдением просодических паттернов.
## Результаты
Наши результаты показали, что F5-TTS показывает высокую точность в создании понятной речи, но существуют существенные ухудшения в близости к образцу речи и сохранении просодических паттернов. Эти результаты подтверждают, что модель демонстрирует биаз в пользу intelligibility, при этом недостаточно уделяется внимания speaker similarity и prosody preservation. Такие результаты показывают, что F5-TTS может сильно зависеть от исходных данных и не всегда достаточно гибка в учении разнообразных дизартрических фонов.
## Значимость
Результаты этого исследования имеют большую значимость для развития синтетических моделей в области дизартрического синтеза. Они позволяют понять потенциальные биазы и проблемы в современных моделях. Более того, данные результаты могут помочь в разработке более точных и справедливых моделей для ассистивных технологий, которые учитывают различные уровни дизартрии и помогают в создании более включающих технологий для сложного дизартрического голоса.
## Выводы
В результате статьи были выявлены существенные биазы в F5-TTS, особенно в отношении intelligibility. Эти результаты могут послужить основой для будущих исследований в области справедливости в синтезе дизартрической речи. Мы предлагаем расширение модели F5-TTS для учета более широкого спектра дизартрических характеристик, чтобы повысить общую точность и создать более справедливую модель.
Abstract
Dysarthric speech poses significant challenges in developing assistive
technologies, primarily due to the limited availability of data. Recent
advances in neural speech synthesis, especially zero-shot voice cloning,
facilitate synthetic speech generation for data augmentation; however, they may
introduce biases towards dysarthric speech. In this paper, we investigate the
effectiveness of state-of-the-art F5-TTS in cloning dysarthric speech using
TORGO dataset, focusing on intelligibility, speaker similarity, and prosody
preservation. We also analyze potential biases using fairness metrics like
Disparate Impact and Parity Difference to assess disparities across dysarthric
severity levels. Results show that F5-TTS exhibits a strong bias toward speech
intelligibility over speaker and prosody preservation in dysarthric speech
synthesis. Insights from this study can help integrate fairness-aware
dysarthric speech synthesis, fostering the advancement of more inclusive speech
technologies.
Ссылки и действия
Дополнительные ресурсы: