No Verifiable Reward for Prosody: Toward Preference-Guided Prosody Learning in TTS
2509.18531v1
eess.AS, cs.AI, cs.CL, cs.SD
2025-09-25
Авторы:
Seungyoun Shin, Dongha Ahn, Jiwoo Kim, Sungwook Jeon
Резюме на русском
## Контекст
Текстовое воспроизведение речи (Text-to-Speech, TTS) — это технология, позволяющая конвертировать текстовые данные в естественный голосовой вывод. Одной из ключевых проблем в этой области является создание естественной и естественного звучания речи, включая просодические свойства, такие как интонация, ритм и тембр. Несмотря на улучшение TTS-систем, не удается достичь желаемого уровня просодической привлекательности без явного контроля и оценки просодических параметров. Это вызывает значительные ограничения в широком развитии технологии, особенно в сферах, где просодические свойства ключевым образом влияют на качество звука и качество социальной интеракции.
## Метод
Наша методология основывается на **Direct Preference Optimization (DPO)**, которая использует небольшое количество человеческих предпочтений для поддержки естественности просодических свойств в TTS. Мы применяем GRPO (Group Relative Policy Optimization) для оптимизации просодических факторов, но в условиях отсутствия явной награды для просодики, полагаемся на взаимодействие с человеком для ручного определения желаемых просодических характеристик. Это позволяет нам минимизировать ошибки и достичь более естественного звучания в TTS. Мы также вводим регуляризацию для стабилизации тренировки, чтобы избежать ложных минимумов.
## Результаты
Мы проверяли нашу модель на **KoCC-TTS**, датасете, состоящем из реальных записей голосовых интеракций из корпоративных центров обработки обращений. Наши эксперименты показали, что DPO позволяет получить наивысший уровень желаемости пользователя (ELO) и сравнительно низкие значения CER (Character Error Rate). В сравнении с GRPO и сильными коммерческими алгоритмами, метод DPO демонстрирует значительные улучшения в просодической привлекательности, не прибегая к громоздким или нестабильным методам. Эти результаты указывают на то, что человеческие предпочтения могут стать эффективным инструментом для повышения качества голосных моделей.
## Значимость
Наш метод имеет широкое применение в сфере естественного звучания голоса, в частности для TTS в задачах обработки обращений, таск-ориентированных диалогов и автоматических систем телефонной связи. Он также позволяет снизить необходимый объем ручной работы над ручной оценкой просодических свойств, что делает технологию более эффективной и доступной для разработчиков. Будущие исследования будут направлены на улучшение методов оценки естественности просодики и расширение применения наших результатов к другим языкам и стилюм речи.
## Выводы
Мы доказали, что **Direct Preference Optimization** является эффективным способом обучения TTS с естественным просодическим звучанием. Наши ре
Abstract
Recent work reports gains in neural text-to-speech (TTS) with Group Relative
Policy Optimization (GRPO). However, in the absence of a verifiable reward for
\textit{prosody}, GRPO trained on transcription-oriented signals (CER/NLL)
lowers error rates yet collapses prosody into monotone, unnatural speech;
adding speaker-similarity further destabilizes training and degrades CER. We
address this with an \textit{iterative Direct Preference Optimization (DPO)}
scheme that uses only a few hundred human-labeled preference pairs per round to
directly optimize prosodic naturalness while regularizing to the current model.
On \textbf{KoCC-TTS}, a curated dataset of authentic Korean call center
interactions capturing task-oriented dialogues, our method attains the highest
human preference (ELO) with competitive CER, outperforming GRPO and strong
commercial baselines. These results suggest that when prosody cannot be
rewarded automatically, \textit{human preference optimization} offers a
practical and data-efficient path to natural and robust TTS. The demo page is
available at \href{https://tts.ch.dev}