Multi-Metric Preference Alignment for Generative Speech Restoration

2508.17229v1 cs.SD, cs.AI, cs.LG, eess.AS 2025-08-27

Авторы:

Junan Zhang, Xueyao Zhang, Jing Yang, Yuancheng Wang, Fan Fan, Zhizheng Wu

Резюме на русском

## Контекст Область генерируемого голосового реставрирования широко применяется в различных сферах, включая медицину, разговорные системы, игры и анимацию. Несмотря на успехы современных генерируемых моделей в этой области, их тренировочные цели часто не совпадают с человеческими предпочтениями, что приводит к низкому качеству результатов. Хотя пост-тренировочное применение предпочтений зарекомендовало себя в других генерируемых областях, таких как текст и изображения, в генерируемом реставрировании речи эта практика пока мало исследована. Необходимо разработать методы, позволяющие эффективно улучшать качество результатов в соответствии с человеческими предпочтениями. ## Метод Для решения описанных проблем мы предлагаем метод многомерного приведения предпочтений к алгоритму Direct Preference Optimization (DPO). Мы разработали новый датасет GenSR-Pref, содержащий 80 тысяч предпочтений, где каждый выбор был согласован с кругом метрик, охватывающих перceptive quality, signal fidelity, content consistency и timbre preservation. Наш подход гарантирует целостность и достоверность предпочтений. Мы применяем DPO к трем основным моделям генерируемого реставрирования речи: autoregressive models (AR), masked generative models (MGM) и flow-matching models (FM). Это позволяет обеспечить последовательное улучшение качества реставрирования в различных сценариях и бенчмарках. ## Результаты Мы провели обширные эксперименты с использованием наших методов и сравнили их с базовыми моделями. Результаты показали значительные повышения качества в 3х моделях на разных данных и задачах. Мы также провели анализ абляции, подтвердив преимущество нашего многомерного подхода над единоmetric-approaches. Благодаря нашей стратегии, модели становятся более совместимыми с человеческими предпочтениями и показывают лучшие результаты в качестве решения задачи generative speech restoration. ## Значимость Предлагаемый подход имеет широкую полезность в области генерируемого голосового реставрирования. Он может применяться в сферах, требующих высокого качества реставрирования, таких как медицинское измерение, разговорные системы, развлекательные и производственные системы, где речь играет ключевую роль. Наши результаты имеют потенциал для улучшения качества результатов в области генерируемой речи и могут быть широко использованы в практических задачах. ## Выводы Мы представили метод многомерного приведения предпочтений, который существенно улучшает качество результатов в генерируемом реставрировании речи. Наши результаты показали эффективность этого подхода в различных моделях и задачах. В дальнейших исследованиях мы планируем расширить наш датасет и применить нашу стратегию к другим моделям и областям генерируемой речи.

Abstract

Recent generative models have significantly advanced speech restoration tasks, yet their training objectives often misalign with human perceptual preferences, resulting in suboptimal quality. While post-training alignment has proven effective in other generative domains like text and image generation, its application to generative speech restoration remains largely under-explored. This work investigates the challenges of applying preference-based post-training to this task, focusing on how to define a robust preference signal and curate high-quality data to avoid reward hacking. To address these challenges, we propose a multi-metric preference alignment strategy. We construct a new dataset, GenSR-Pref, comprising 80K preference pairs, where each chosen sample is unanimously favored by a complementary suite of metrics covering perceptual quality, signal fidelity, content consistency, and timbre preservation. This principled approach ensures a holistic preference signal. Applying Direct Preference Optimization (DPO) with our dataset, we observe consistent and significant performance gains across three diverse generative paradigms: autoregressive models (AR), masked generative models (MGM), and flow-matching models (FM) on various restoration benchmarks, in both objective and subjective evaluations. Ablation studies confirm the superiority of our multi-metric strategy over single-metric approaches in mitigating reward hacking. Furthermore, we demonstrate that our aligned models can serve as powerful ''data annotators'', generating high-quality pseudo-labels to serve as a supervision signal for traditional discriminative models in data-scarce scenarios like singing voice restoration. Demo Page:https://gensr-pref.github.io

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Multi-Metric Preference Alignment for Generative Speech Restoration

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Advancing Marine Bioacoustics with Deep Generative Models: A Hybrid Augmentation...

Learning Linearity in Audio Consistency Autoencoders via Implicit Regularization

Schrödinger Bridge Mamba for One-Step Speech Enhancement

Automatic Music Sample Identification with Multi-Track Contrastive Learning

Leveraging Whisper Embeddings for Audio-based Lyrics Matching

Навигация