Improving French Synthetic Speech Quality via SSML Prosody Control

2508.17494v1 cs.CL, cs.SD, 68T50, I.2.7; H.5.5 2025-08-27
Авторы:

Nassima Ould Ouali, Awais Hussain Sani, Ruben Bueno, Jonah Dauvet, Tim Luka Horstmann, Eric Moulines

Резюме на русском

## Контекст Современные тексто-na-reči (TTS) системы, несмотря на постоянный прогресс, часто сталкиваются с проблемой недостаточной выразительности синтетических голосов. Это ограничение связано с недостаточным контролем прозоса, который определяет гармонию звучания в речи. Это влияет на применение TTS в различных сферах, включая аудиокниги, интерактивные системы и доступность для инвалидов. Особенно заметна проблема на языках с богатым лексическим и фонетическим составом, таких как французский. Наша мотивация заключается в улучшении прозоса синтетического голоса, чтобы сделать его более природным и естественным. ## Метод Мы предлагаем первую полностью интегрированную архитектуру, которая внедряет SSML (Speech Synthesis Markup Language) теги в французский текст для контроля питча, скорости речи, громкости и продолжительности пауз. Наша модель основана на двух моделях QLoRA-fine-tuned Qwen 2.5-7B. Первая модель предсказывает позиции фразных перерывов, а вторая регрессионно определяет целевые прозосные параметры. Эти цели преобразуются в SSML теги, которые могут использоваться в коммерческих TTS-системах. Мы тренировали и проверили нашу модель на 14-часовом корпусе французских подкастов. ## Результаты Эксперименты показали высокую точность в позиционировании фразных перерывов — 99.2% F1. Мы также достигли существенных улучшений в регрессии на прозосные параметры: ошибка абсолютного значения (MAE) уменьшилась на 25-40% по сравнению с prompting-only LLMs и BiLSTM-базисом. В клиническом опросе, в котором участвовали 18 членов комитета, мы обнаружили, что SSML-подкрепленная речь с нашей моделью значительно приличнее и природнее, с МОС (Mean Opinion Score) повысившимся с 3.20 до 3.87 (p < 0.005). 15 из 18 слушателей существенно предпочли нашу модель к оригинальной. ## Значимость Наше решение может быть применено в различных сферах, таких как доступная коммуникация, аудиоконтент для новостей и образовательные цели. Оно предлагает значительные преимущества в улучшении натуральности и выразительности синтетической речи на французском языке. Эти достижения открывают новые перспективы для улучшения TTS-систем в области эмоциональной натуральности и естественности речи. ## Выводы Мы добились значительных улучшений в выразительности синтетического голоса на французском языке с помощью нашей новой SSML-контролируемой архитектуры. Будущие исследования будут направлены на продолжение улучшения моделей, включая многоязычную поддержку и интеграцию более высокоуровневых функций, таких ка

Abstract

Despite recent advances, synthetic voices often lack expressiveness due to limited prosody control in commercial text-to-speech (TTS) systems. We introduce the first end-to-end pipeline that inserts Speech Synthesis Markup Language (SSML) tags into French text to control pitch, speaking rate, volume, and pause duration. We employ a cascaded architecture with two QLoRA-fine-tuned Qwen 2.5-7B models: one predicts phrase-break positions and the other performs regression on prosodic targets, generating commercial TTS-compatible SSML markup. Evaluated on a 14-hour French podcast corpus, our method achieves 99.2% F1 for break placement and reduces mean absolute error on pitch, rate, and volume by 25-40% compared with prompting-only large language models (LLMs) and a BiLSTM baseline. In perceptual evaluation involving 18 participants across over 9 hours of synthesized audio, SSML-enhanced speech generated by our pipeline significantly improves naturalness, with the mean opinion score increasing from 3.20 to 3.87 (p < 0.005). Additionally, 15 of 18 listeners preferred our enhanced synthesis. These results demonstrate substantial progress in bridging the expressiveness gap between synthetic and natural French speech. Our code is publicly available at https://github.com/hi-paris/Prosody-Control-French-TTS.

Ссылки и действия