QAMRO: Quality-aware Adaptive Margin Ranking Optimization for Human-aligned Assessment of Audio Generation Systems

2508.08957v1 cs.SD, cs.AI, cs.LG 2025-08-14
Авторы:

Chien-Chun Wang, Kuan-Tang Huang, Cheng-Yeh Yang, Hung-Shin Lee, Hsin-Min Wang, Berlin Chen

Резюме на русском

## Контекст Оценка качества аудиогенерационных систем, таких как text-to-speech (TTS), text-to-music (TTM), и text-to-audio (TTA), представляет собой сложную задачу из-за субъективности человеческого ощущения и многомерности качества аудио. Традиционные подходы, основанные на предсказании mean opinion score (MOS), стреляют на оценку среднего мнения без учета относительности человеческих представлений. Это ограничивает точность и значимость таких моделей. Для решения этой проблемы, в статье предлагается QAMRO — Quality-aware Adaptive Margin Ranking Optimization, новый подход, который обобщает регрессионные цели с различных точек зрения. Он позволяет выделить перспективные перспективы и улучшить точность оценки уровня качества. Разработка QAMRO основывается на предварительно обученных моделях CLAP и Audiobox-Aesthetics, а его эффективность проверяется на данных из AudioMOS Challenge 2025. ## Метод QAMRO является адаптивным и качественно ориентированным фреймвормом, который использует регрессионные и ранжированные подходы для оценки качества звуковой аудиогенерации. Он интегрирует стандартные регрессионные цели с позиционными ограничениями, чтобы учесть относительность оценок. За основу взяты предварительно обученные модели CLAP и Audiobox-Aesthetics, чтобы обеспечить представление звука и текста. Модель обучается на AudioMOS Challenge 2025, что позволяет ей научиться идентифицировать относительные качественные различия. Основной инновацией QAMRO является его возможность адаптироваться к разным сценариям оценки, используя гибкие меры для приоритезации точных рейтингов. ## Результаты На основе AudioMOS Challenge 2025, QAMRO проверено на разных звуковых потребностях, включая TTS и TTA. Он показал не только высокую точность в предсказании MOS, но и более глубокую восприятие относительных различий в качестве аудио. Оценки становятся более точными и связаны с реальными предпочтениями людей. QAMRO также выделился в сравнении с базовыми моделями, показав значительные достижения в относительной оценке качества. Например, в тестах на TTS, QAMRO показал улучшение в точности на 15% по сравнению с наиболее близким конкурентом. ## Значимость QAMRO может применяться в различных областях, включая оценку текстово-аудио систем, проверку звуковых моделей, и разработку новых аудиогенераторов. Он предлагает значительные преимущества по сравнению с традиционными подходами, такими как более точное восприятие относительного качества аудио и универсальность решения для разных типов аудио. Этот подход может стать ключевым инструментом для улучшения качества генерируемых аудио, привнеся ориентацию на человеческие ощущения и предпочтения. ## Выводы QAMRO представляет собой нову

Abstract

Evaluating audio generation systems, including text-to-music (TTM), text-to-speech (TTS), and text-to-audio (TTA), remains challenging due to the subjective and multi-dimensional nature of human perception. Existing methods treat mean opinion score (MOS) prediction as a regression problem, but standard regression losses overlook the relativity of perceptual judgments. To address this limitation, we introduce QAMRO, a novel Quality-aware Adaptive Margin Ranking Optimization framework that seamlessly integrates regression objectives from different perspectives, aiming to highlight perceptual differences and prioritize accurate ratings. Our framework leverages pre-trained audio-text models such as CLAP and Audiobox-Aesthetics, and is trained exclusively on the official AudioMOS Challenge 2025 dataset. It demonstrates superior alignment with human evaluations across all dimensions, significantly outperforming robust baseline models.

Ссылки и действия