Improving French Synthetic Speech Quality via SSML Prosody Control
2508.17494v1
cs.CL, cs.SD, 68T50, I.2.7; H.5.5
2025-08-27
Авторы:
Nassima Ould Ouali, Awais Hussain Sani, Ruben Bueno, Jonah Dauvet, Tim Luka Horstmann, Eric Moulines
Резюме на русском
## Контекст
Современные тексто-na-reči (TTS) системы, несмотря на постоянный прогресс, часто сталкиваются с проблемой недостаточной выразительности синтетических голосов. Это ограничение связано с недостаточным контролем прозоса, который определяет гармонию звучания в речи. Это влияет на применение TTS в различных сферах, включая аудиокниги, интерактивные системы и доступность для инвалидов. Особенно заметна проблема на языках с богатым лексическим и фонетическим составом, таких как французский. Наша мотивация заключается в улучшении прозоса синтетического голоса, чтобы сделать его более природным и естественным.
## Метод
Мы предлагаем первую полностью интегрированную архитектуру, которая внедряет SSML (Speech Synthesis Markup Language) теги в французский текст для контроля питча, скорости речи, громкости и продолжительности пауз. Наша модель основана на двух моделях QLoRA-fine-tuned Qwen 2.5-7B. Первая модель предсказывает позиции фразных перерывов, а вторая регрессионно определяет целевые прозосные параметры. Эти цели преобразуются в SSML теги, которые могут использоваться в коммерческих TTS-системах. Мы тренировали и проверили нашу модель на 14-часовом корпусе французских подкастов.
## Результаты
Эксперименты показали высокую точность в позиционировании фразных перерывов — 99.2% F1. Мы также достигли существенных улучшений в регрессии на прозосные параметры: ошибка абсолютного значения (MAE) уменьшилась на 25-40% по сравнению с prompting-only LLMs и BiLSTM-базисом. В клиническом опросе, в котором участвовали 18 членов комитета, мы обнаружили, что SSML-подкрепленная речь с нашей моделью значительно приличнее и природнее, с МОС (Mean Opinion Score) повысившимся с 3.20 до 3.87 (p < 0.005). 15 из 18 слушателей существенно предпочли нашу модель к оригинальной.
## Значимость
Наше решение может быть применено в различных сферах, таких как доступная коммуникация, аудиоконтент для новостей и образовательные цели. Оно предлагает значительные преимущества в улучшении натуральности и выразительности синтетической речи на французском языке. Эти достижения открывают новые перспективы для улучшения TTS-систем в области эмоциональной натуральности и естественности речи.
## Выводы
Мы добились значительных улучшений в выразительности синтетического голоса на французском языке с помощью нашей новой SSML-контролируемой архитектуры. Будущие исследования будут направлены на продолжение улучшения моделей, включая многоязычную поддержку и интеграцию более высокоуровневых функций, таких ка
Abstract
Despite recent advances, synthetic voices often lack expressiveness due to
limited prosody control in commercial text-to-speech (TTS) systems. We
introduce the first end-to-end pipeline that inserts Speech Synthesis Markup
Language (SSML) tags into French text to control pitch, speaking rate, volume,
and pause duration. We employ a cascaded architecture with two QLoRA-fine-tuned
Qwen 2.5-7B models: one predicts phrase-break positions and the other performs
regression on prosodic targets, generating commercial TTS-compatible SSML
markup. Evaluated on a 14-hour French podcast corpus, our method achieves 99.2%
F1 for break placement and reduces mean absolute error on pitch, rate, and
volume by 25-40% compared with prompting-only large language models (LLMs) and
a BiLSTM baseline. In perceptual evaluation involving 18 participants across
over 9 hours of synthesized audio, SSML-enhanced speech generated by our
pipeline significantly improves naturalness, with the mean opinion score
increasing from 3.20 to 3.87 (p < 0.005). Additionally, 15 of 18 listeners
preferred our enhanced synthesis. These results demonstrate substantial
progress in bridging the expressiveness gap between synthetic and natural
French speech. Our code is publicly available at
https://github.com/hi-paris/Prosody-Control-French-TTS.