Leveraging Multiple Speech Enhancers for Non-Intrusive Intelligibility Prediction for Hearing-Impaired Listeners

2509.16979v1 cs.SD, cs.AI, eess.AS 2025-09-24

Авторы:

Boxuan Cao, Linkai Li, Hanlin Yu, Changgeng Mo, Haoshuai Zhou, Shan Xiang Wang

Резюме на русском

## Контекст Оценка человеческого звукового понимания (speech intelligibility) является ключевым аспектом в сфере акустики и применения устройств слухового сознания (hearing aids). Особенно важной является эта задача для людей с ограниченной слуховой функцией (hearing-impaired, HI). Несмотря на то, что существуют методы для оценки этого показателя, такие как слуховые тесты или интрузивные методы, такие как HASPI, они часто требуют чистой сигнализации, которая может быть недоступна в реальных условиях. Такая ситуация создает проблему в оценке устройств в реальном мире. Задача этой статьи — разработать неинтрузивный метод оценки звукового понимания, используя мощь нескольких разных техник улучшения звука (speech enhancers). ## Метод Разработанная методология основывается на использовании нескольких существующих моделей улучшения звука для создания "улучшенного" сигнала. Затем, эти улучшенные сигналы используются для предсказания интеллигентности речи (intelligibility prediction). Мы исследовали три разных модели улучшения звука и проанализировали, как их различные архитектуры влияют на точность предсказаний. Для улучшения устойчивости к неизвестным данным (cross-dataset generalization), мы предложили стратегию 2-clips augmentation, которая добавляет различность на уровне пользователей. Эта стратегия позволяет модели улучшать свою наглядность при оценке звука на новых данных. ## Результаты Мы провели эксперименты на нескольких наборах данных с разными условиями звука и сложностью. Наши результаты показали, что выбор спецификаций улучшения звука (enhancer) имеет существенное влияние на качество предсказаний. Мы также обнаружили, что сочетание нескольких эффективных моделей улучшения звука (ensembles) приводит к существенному повышению точности. Метод, использующий 2-clips augmentation, показал существенное улучшение в устойчивости к неизвестным данным в сравнении с базовыми моделями, такими как CPC2 Champion. ## Значимость Мы увидели, что наш метод может иметь широкое применение в оценке слуховых устройств в реальных условиях. Наша модель показала лучшие результаты в сравнении с другими неинтрузивными методами. Он может помочь улучшить наше понимание, как работают слуховые устройства в реальном мире, а также помочь в создании более эффективных тестов и моделей в будущем. ## Выводы Мы доказали, что использование нескольких моделей улучшения звука может значительно повысить эффективность неинтрузивных методов оценки интеллигентности речи. Наша работа открывает путь к более точным и реалистичным оценкам слухового понимания в реальных условиях. Будущие исследования будут фокусироваться на дополнительном улучшении устойчивости

Abstract

Speech intelligibility evaluation for hearing-impaired (HI) listeners is essential for assessing hearing aid performance, traditionally relying on listening tests or intrusive methods like HASPI. However, these methods require clean reference signals, which are often unavailable in real-world conditions, creating a gap between lab-based and real-world assessments. To address this, we propose a non-intrusive intelligibility prediction framework that leverages speech enhancers to provide a parallel enhanced-signal pathway, enabling robust predictions without reference signals. We evaluate three state-of-the-art enhancers and demonstrate that prediction performance depends on the choice of enhancer, with ensembles of strong enhancers yielding the best results. To improve cross-dataset generalization, we introduce a 2-clips augmentation strategy that enhances listener-specific variability, boosting robustness on unseen datasets. Our approach consistently outperforms the non-intrusive baseline, CPC2 Champion across multiple datasets, highlighting the potential of enhancer-guided non-intrusive intelligibility prediction for real-world applications.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Leveraging Multiple Speech Enhancers for Non-Intrusive Intelligibility Prediction for Hearing-Impaired Listeners

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

RRPO: Robust Reward Policy Optimization for LLM-based Emotional TTS

Multi-Loss Learning for Speech Emotion Recognition with Energy-Adaptive Mixup an...

Multidimensional Music Aesthetic Evaluation via Semantically Consistent C-Mixup ...

Aligning Generative Music AI with Human Preferences: Methods and Challenges

Real-Time Speech Enhancement via a Hybrid ViT: A Dual-Input Acoustic-Image Featu...

Навигация