WhiSQA: Non-Intrusive Speech Quality Prediction Using Whisper Encoder Features

2508.02210v1 cs.SD, cs.LG, eess.AS 2025-08-09
Авторы:

George Close, Kris Hong, Thomas Hain, Stefan Goetze

Резюме на русском

## Контекст В последние годы активно развивается искусственный интеллект в области речи, в том числе для оценки качества речи (SQ). Одним из основных задач существующих систем является разработка нейронных метрик, которые могут оценивать качество речи без необходимости предоставлять сравнительные референсы. Существуют многочисленные большие выборки аудиоданных с оценками качества, но не всегда они подходят для проведения точных экспериментов. Одним из ключевых трендов является использование представлений из нейросетей, обученных на больших объемах данных без направленной метки, для решения задач оценки качества речи. В данной работе предлагается продвинутый подход, основанный на получении представлений речи из модели АСР (Whisper), что позволяет повысить качество оценки качества речи. ## Метод Предлагаемая модель, WhiSQA, основывается на использовании функций выражения, полученных из модели Whisper, которая обучена неуправляемым способом на большом количестве аудиоданных. Эти представления аудио тщательно проанализированы и оптимизированы в рамках задачи оценки качества речи. Методом стало прогнозирование на основе нейронных сетей, которые используют эти выделенные представления речи. Затем для оценки качества был разработан новый подход, сталкивающий модель с реальными условиями, что позволило повысить точность оценки качества речи. ## Результаты В ходе экспериментов метрика WhiSQA протестирована на нескольких тестовых наборах данных, в том числе на Human MOS, NISQA и DNSMOS. Она показала высокую корреляцию с реальными оценками качества речи, превысив многие из соревновательных моделей, в том числе DNSMOS. Модель WhiSQA также продемонстрировала значительное улучшение в доменной адаптации, что делает ее более универсальной для различных типов сценариев. ## Значимость Данный подход может быть применен в различных областях, в том числе для тестирования систем распознавания речи, а также для выявления ошибок в звуковых сигналах. Модель WhiSQA показывает значительные преимущества в сравнении с конкурентными системами, включая более высокую точность и лучшую общую гибкость. Эти достижения открывают пути для будущих исследований в области нейронных моделей для оценки качества речи с необходимостью меньших ресурсов. ## Выводы Разработанная модель WhiSQA доказала свою эффективность в прогнозировании качества речи. Она превосходит существующие решения по корреляции с реальными оценками качества речи. В будущем планируется расширить функции модели, включая её использование для других задач, таких как выявление и поддержка оптимальных условий для речи.

Abstract

There has been significant research effort developing neural-network-based predictors of SQ in recent years. While a primary objective has been to develop non-intrusive, i.e.~reference-free, metrics to assess the performance of SE systems, recent work has also investigated the direct inference of neural SQ predictors within the loss function of downstream speech tasks. To aid in the training of SQ predictors, several large datasets of audio with corresponding human labels of quality have been created. Recent work in this area has shown that speech representations derived from large unsupervised or semi-supervised foundational speech models are useful input feature representations for neural SQ prediction. In this work, a novel and robust SQ predictor is proposed based on feature representations extracted from an ASR model, found to be a powerful input feature for the SQ prediction task. The proposed system achieves higher correlation with human MOS ratings than recent approaches on all NISQA test sets and shows significantly better domain adaption compared to the commonly used DNSMOS metric.

Ссылки и действия