DRASP: A Dual-Resolution Attentive Statistics Pooling Framework for Automatic MOS Prediction
2508.21407v1
cs.SD, cs.AI
2025-09-02
Авторы:
Cheng-Yeh Yang, Kuan-Tang Huang, Chien-Chun Wang, Hung-Shin Lee, Hsin-Min Wang, Berlin Chen
Резюме на русском
## Контекст
В области звуковой синтеза и анализа, автоматическое определение Mean Opinion Score (MOS) — ключевая задача, направленная на оценку качества аудиосигнала. Традиционные подходы часто ориентированы на одну специфику: либо всеобщую структуру аудиосигнала (как в global pooling), либо детальные локальные особенности (как в frame-level analysis). Эти методы могут недостаточно учитывать комплексное взаимодействие между глобальной структурой и локальными деталями, что снижает точность прогнозирования MOS. Для устранения этой проблемы, авторы предлагают решение, которое объединит два уровня анализа, повысив целостность и точность результатов.
## Метод
Фреймворк DRASP (Dual-Resolution Attentive Statistics Pooling) представляет собой двухуровневую архитектуру, которая объединяет две стратегии анализа: coarse-grained и fine-grained. В первом этапе, model extracts global statistical summaries, которые охватывают целый аудиосигнал. Во втором этапе, attentive pooling применяется для идентификации perceptually significant segments, обеспечивая детальный анализ. Эта структура позволяет DRASP совместно использовать глобальную контексту и локальные важные моменты, улучшая представление и, следовательно, точность прогноза MOS.
## Результаты
Для оценки эффективности DRASP проводились многочисленные эксперименты на двух датасетах: MusicEval и AES-Natural. Модель DRASP оказалась сильнее существующих baseline-подходов, включая average pooling, на всех наборах данных и задачах. Она показала результат, 10.39% лучше стандартной average pooling в системном уровне Spearman's rank correlation coefficient (SRCC). Эти результаты подчеркивают значительный потенциал DRASP для точного и целостного прогнозирования MOS.
## Значимость
DRASP внедряется в различные области, включая синтез звука, анализ музыки, аудио-контроль качества. Он обеспечивает более широкий и точный подход к прогнозированию MOS, что повышает его привлекательность для реальных приложений. Также, DRASP показывает значительную выгоду по сравнению с базовыми методами, и его использование может привести к улучшению автоматизированных систем оценки качества звука в широком круге приложений.
## Выводы
DRASP — это перспективный подход в сфере автоматической оценки качества звука, который объединяет горизонтальный и вертикальный анализ. Он позволяет достичь более точных результатов в прогнозировании MOS. Будущие исследования будут нацелены на улучшение DRASP, повышение его эффективности и расширение его применения в различных сценариях.
Abstract
A pooling mechanism is essential for mean opinion score (MOS) prediction,
facilitating the transformation of variable-length audio features into a
concise fixed-size representation that effectively encodes speech quality.
Existing pooling methods typically operate at a singular granularity,
concentrating either on a comprehensive global perspective or a detailed
frame-level analysis, which may overlook complementary perceptual insights. To
address this limitation, we introduce the Dual-Resolution Attentive Statistics
Pooling (DRASP) framework. DRASP integrates both coarse-grained, global
statistical summaries and fine-grained, attentive analyses of perceptually
significant segments. This dual-view architecture empowers our model to
formulate a more thorough and robust representation, capturing both the
overarching structural context and salient local details concurrently.
Extensive experiments validate the effectiveness and strong generalization
ability of the proposed framework. It consistently outperforms various baseline
methods across diverse datasets (MusicEval and AES-Natural), MOS prediction
backbones (including a CLAP-based model and AudioBox-Aesthetics), and different
audio generation systems, achieving a relative improvement of 10.39% in
system-level Spearman's rank correlation coefficient (SRCC) over the
widely-used average pooling approach.
Ссылки и действия
Дополнительные ресурсы: