Fine-Tuning Text-to-Speech Diffusion Models Using Reinforcement Learning with Human Feedback

2508.03123v1 cs.SD, cs.AI, eess.AS 2025-08-09

Авторы:

Jingyi Chen, Ju Seung Byun, Micha Elsner, Pichao Wang, Andrew Perrault

Резюме на русском

**Резюме** Проблема. Диффузионные модели генерации речи (TTS) обеспечивают высокое качество звука, но их работа неэффективна в реальном времени из-за длительных денойзинг-шагов и сложности моделирования интонации и ритма. Решение. Мы предлагаем Diffusion Loss-Guided Policy Optimization (DLPO), фреймворк RLHF для TTS-диффузионных моделей. DLPO интегрирует исходный функционал обучения в функцию награды, сохраняя порождающие способности модели и оптимизируя её работу. Обучение происходит с использованием естественности речи в качестве отзывов. Основные выводы. На модели WaveGrad 2 DLPO показал улучшение в объективных метриках (UTMOS 3.65, NISQA 4.02) и подверждался предпочтению человеческого слушателя в 67% случаев. Это демонстрирует перспективу DLPO для эффективной и качественной генерации речи в реальном времени.

Abstract

Diffusion models produce high-fidelity speech but are inefficient for real-time use due to long denoising steps and challenges in modeling intonation and rhythm. To improve this, we propose Diffusion Loss-Guided Policy Optimization (DLPO), an RLHF framework for TTS diffusion models. DLPO integrates the original training loss into the reward function, preserving generative capabilities while reducing inefficiencies. Using naturalness scores as feedback, DLPO aligns reward optimization with the diffusion model's structure, improving speech quality. We evaluate DLPO on WaveGrad 2, a non-autoregressive diffusion-based TTS model. Results show significant improvements in objective metrics (UTMOS 3.65, NISQA 4.02) and subjective evaluations, with DLPO audio preferred 67\% of the time. These findings demonstrate DLPO's potential for efficient, high-quality diffusion TTS in real-time, resource-limited settings.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Fine-Tuning Text-to-Speech Diffusion Models Using Reinforcement Learning with Human Feedback

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

RRPO: Robust Reward Policy Optimization for LLM-based Emotional TTS

Multi-Loss Learning for Speech Emotion Recognition with Energy-Adaptive Mixup an...

Multidimensional Music Aesthetic Evaluation via Semantically Consistent C-Mixup ...

Aligning Generative Music AI with Human Preferences: Methods and Challenges

Real-Time Speech Enhancement via a Hybrid ViT: A Dual-Input Acoustic-Image Featu...

Навигация