Multi-Metric Preference Alignment for Generative Speech Restoration
2508.17229v1
cs.SD, cs.AI, cs.LG, eess.AS
2025-08-27
Авторы:
Junan Zhang, Xueyao Zhang, Jing Yang, Yuancheng Wang, Fan Fan, Zhizheng Wu
Резюме на русском
## Контекст
Область генерируемого голосового реставрирования широко применяется в различных сферах, включая медицину, разговорные системы, игры и анимацию. Несмотря на успехы современных генерируемых моделей в этой области, их тренировочные цели часто не совпадают с человеческими предпочтениями, что приводит к низкому качеству результатов. Хотя пост-тренировочное применение предпочтений зарекомендовало себя в других генерируемых областях, таких как текст и изображения, в генерируемом реставрировании речи эта практика пока мало исследована. Необходимо разработать методы, позволяющие эффективно улучшать качество результатов в соответствии с человеческими предпочтениями.
## Метод
Для решения описанных проблем мы предлагаем метод многомерного приведения предпочтений к алгоритму Direct Preference Optimization (DPO). Мы разработали новый датасет GenSR-Pref, содержащий 80 тысяч предпочтений, где каждый выбор был согласован с кругом метрик, охватывающих перceptive quality, signal fidelity, content consistency и timbre preservation. Наш подход гарантирует целостность и достоверность предпочтений. Мы применяем DPO к трем основным моделям генерируемого реставрирования речи: autoregressive models (AR), masked generative models (MGM) и flow-matching models (FM). Это позволяет обеспечить последовательное улучшение качества реставрирования в различных сценариях и бенчмарках.
## Результаты
Мы провели обширные эксперименты с использованием наших методов и сравнили их с базовыми моделями. Результаты показали значительные повышения качества в 3х моделях на разных данных и задачах. Мы также провели анализ абляции, подтвердив преимущество нашего многомерного подхода над единоmetric-approaches. Благодаря нашей стратегии, модели становятся более совместимыми с человеческими предпочтениями и показывают лучшие результаты в качестве решения задачи generative speech restoration.
## Значимость
Предлагаемый подход имеет широкую полезность в области генерируемого голосового реставрирования. Он может применяться в сферах, требующих высокого качества реставрирования, таких как медицинское измерение, разговорные системы, развлекательные и производственные системы, где речь играет ключевую роль. Наши результаты имеют потенциал для улучшения качества результатов в области генерируемой речи и могут быть широко использованы в практических задачах.
## Выводы
Мы представили метод многомерного приведения предпочтений, который существенно улучшает качество результатов в генерируемом реставрировании речи. Наши результаты показали эффективность этого подхода в различных моделях и задачах. В дальнейших исследованиях мы планируем расширить наш датасет и применить нашу стратегию к другим моделям и областям генерируемой речи.
Abstract
Recent generative models have significantly advanced speech restoration
tasks, yet their training objectives often misalign with human perceptual
preferences, resulting in suboptimal quality. While post-training alignment has
proven effective in other generative domains like text and image generation,
its application to generative speech restoration remains largely
under-explored. This work investigates the challenges of applying
preference-based post-training to this task, focusing on how to define a robust
preference signal and curate high-quality data to avoid reward hacking. To
address these challenges, we propose a multi-metric preference alignment
strategy. We construct a new dataset, GenSR-Pref, comprising 80K preference
pairs, where each chosen sample is unanimously favored by a complementary suite
of metrics covering perceptual quality, signal fidelity, content consistency,
and timbre preservation. This principled approach ensures a holistic preference
signal. Applying Direct Preference Optimization (DPO) with our dataset, we
observe consistent and significant performance gains across three diverse
generative paradigms: autoregressive models (AR), masked generative models
(MGM), and flow-matching models (FM) on various restoration benchmarks, in both
objective and subjective evaluations. Ablation studies confirm the superiority
of our multi-metric strategy over single-metric approaches in mitigating reward
hacking. Furthermore, we demonstrate that our aligned models can serve as
powerful ''data annotators'', generating high-quality pseudo-labels to serve as
a supervision signal for traditional discriminative models in data-scarce
scenarios like singing voice restoration. Demo
Page:https://gensr-pref.github.io