DRASP: A Dual-Resolution Attentive Statistics Pooling Framework for Automatic MOS Prediction

2508.21407v1 cs.SD, cs.AI 2025-09-02

Авторы:

Cheng-Yeh Yang, Kuan-Tang Huang, Chien-Chun Wang, Hung-Shin Lee, Hsin-Min Wang, Berlin Chen

Резюме на русском

## Контекст В области звуковой синтеза и анализа, автоматическое определение Mean Opinion Score (MOS) — ключевая задача, направленная на оценку качества аудиосигнала. Традиционные подходы часто ориентированы на одну специфику: либо всеобщую структуру аудиосигнала (как в global pooling), либо детальные локальные особенности (как в frame-level analysis). Эти методы могут недостаточно учитывать комплексное взаимодействие между глобальной структурой и локальными деталями, что снижает точность прогнозирования MOS. Для устранения этой проблемы, авторы предлагают решение, которое объединит два уровня анализа, повысив целостность и точность результатов. ## Метод Фреймворк DRASP (Dual-Resolution Attentive Statistics Pooling) представляет собой двухуровневую архитектуру, которая объединяет две стратегии анализа: coarse-grained и fine-grained. В первом этапе, model extracts global statistical summaries, которые охватывают целый аудиосигнал. Во втором этапе, attentive pooling применяется для идентификации perceptually significant segments, обеспечивая детальный анализ. Эта структура позволяет DRASP совместно использовать глобальную контексту и локальные важные моменты, улучшая представление и, следовательно, точность прогноза MOS. ## Результаты Для оценки эффективности DRASP проводились многочисленные эксперименты на двух датасетах: MusicEval и AES-Natural. Модель DRASP оказалась сильнее существующих baseline-подходов, включая average pooling, на всех наборах данных и задачах. Она показала результат, 10.39% лучше стандартной average pooling в системном уровне Spearman's rank correlation coefficient (SRCC). Эти результаты подчеркивают значительный потенциал DRASP для точного и целостного прогнозирования MOS. ## Значимость DRASP внедряется в различные области, включая синтез звука, анализ музыки, аудио-контроль качества. Он обеспечивает более широкий и точный подход к прогнозированию MOS, что повышает его привлекательность для реальных приложений. Также, DRASP показывает значительную выгоду по сравнению с базовыми методами, и его использование может привести к улучшению автоматизированных систем оценки качества звука в широком круге приложений. ## Выводы DRASP — это перспективный подход в сфере автоматической оценки качества звука, который объединяет горизонтальный и вертикальный анализ. Он позволяет достичь более точных результатов в прогнозировании MOS. Будущие исследования будут нацелены на улучшение DRASP, повышение его эффективности и расширение его применения в различных сценариях.

Abstract

A pooling mechanism is essential for mean opinion score (MOS) prediction, facilitating the transformation of variable-length audio features into a concise fixed-size representation that effectively encodes speech quality. Existing pooling methods typically operate at a singular granularity, concentrating either on a comprehensive global perspective or a detailed frame-level analysis, which may overlook complementary perceptual insights. To address this limitation, we introduce the Dual-Resolution Attentive Statistics Pooling (DRASP) framework. DRASP integrates both coarse-grained, global statistical summaries and fine-grained, attentive analyses of perceptually significant segments. This dual-view architecture empowers our model to formulate a more thorough and robust representation, capturing both the overarching structural context and salient local details concurrently. Extensive experiments validate the effectiveness and strong generalization ability of the proposed framework. It consistently outperforms various baseline methods across diverse datasets (MusicEval and AES-Natural), MOS prediction backbones (including a CLAP-based model and AudioBox-Aesthetics), and different audio generation systems, achieving a relative improvement of 10.39% in system-level Spearman's rank correlation coefficient (SRCC) over the widely-used average pooling approach.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

DRASP: A Dual-Resolution Attentive Statistics Pooling Framework for Automatic MOS Prediction

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Large Speech Model Enabled Semantic Communication

YingMusic-Singer: Zero-shot Singing Voice Synthesis and Editing with Annotation-...

YingMusic-SVC: Real-World Robust Zero-Shot Singing Voice Conversion with Flow-GR...

Language Models as Semantic Teachers: Post-Training Alignment for Medical Audio ...

State Space Models for Bioacoustics: A comparative Evaluation with Transformers

Навигация