HuBERT-VIC: Improving Noise-Robust Automatic Speech Recognition of Speech Foundation Model via Variance-Invariance-Covariance Regularization

2508.12292v1 cs.SD, cs.AI, eess.AS 2025-08-19

Авторы:

Hyebin Ahn, Kangwook Jang, Hoirin Kim

Резюме на русском

## Контекст Automatic Speech Recognition (ASR) теперь широко используется в различных областях, включая домашние помощники, системы управления голосом и системы перевода. Однако один из главных недостатков ASR — её чувствительность к шуму. Многие существующие модели тренируются на чистом голосовом данных, но зачастую сталкиваются с проблемами, когда требуется работать с шумными условиями. Это ограничивает их применение в реальном мире, где шум — неизбежная часть. Целью данной работы является создание модели, которая будет более устойчивой к шумам, чтобы улучшить производительность ASR в неидеальных условиях. ## Метод Мы предлагаем HuBERT-VIC, которая основывается на HuBERT, но включает дополнительные обучающие функции — Variance, In-variance, и Covariance Regularization (VICReg). Эти новые статистические меры нацелены на улучшение устойчивости модели к шуму. Ключевым аспектом этого подхода является то, что VICReg целевая настройка статистических свойств звуковых представлений, чтобы модель могла лучше учитывать различные аккустические черты. Мы применяем эти регуляризационные методы к представлениям звуков, чтобы модель могла более точно распознавать звуки в шумных условиях. ## Результаты Мы проводили многочисленные эксперименты на двух наборах данных: LibriSpeech и Demosphere. Мы сравнили новую модель HuBERT-VIC с базовой HuBERT, которая была тренирована на шумном голосовом данных. Эксперименты показали, что HuBERT-VIC показывает значительные улучшения: на LibriSpeech test-clean она достигла 23.3%, а на test-other — 13.2%, что является значительным преимуществом по сравнению с базовой моделью. Эти результаты демонстрируют, что VICReg позволяет модели более эффективно адаптироваться к шумным условиям, увеличивая её устойчивость и общую точность. ## Значимость Наши результаты открывают новые возможности в области шумоустойчивой ASR. Модель HuBERT-VIC может быть применена в различных сценариях, включая системы управления голосом в автомобилях, помощников-диктов и даже в разработке более надежных систем медицинских голосовых интерфейсов. Этот подход не только улучшает производительность, но и позволяет расширить возможности ASR в технических и юридических сферах, где шум является неизбежной частью рабочего процесса. ## Выводы Мы успешно разработали HuBERT-VIC, модель, которая значительно улучшает устойчивость ASR к шумам. Эта модель демонстрирует существенные улучшения в производительности по сравнению с базовой HuBERT. Будущие исследования будут направлены на улучшение технических аспектов VICReg и его применение в различных стандартных вызовах шума в

Abstract

Noise robustness in speech foundation models (SFMs) has been a critical challenge, as most models are primarily trained on clean data and experience performance degradation when the models are exposed to noisy speech. To address this issue, we propose HuBERT-VIC, a noise-robust SFM with variance, in-variance, and covariance regularization (VICReg) objectives. These objectives adjust the statistics of noisy speech representations, enabling the model to capture diverse acoustic characteristics and improving the generalization ability across different types of noise. When applied to HuBERT, our model shows relative performance improvements of 23.3% on LibriSpeech test-clean and 13.2% on test-other, compared to the baseline model pre-trained on noisy speech.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

HuBERT-VIC: Improving Noise-Robust Automatic Speech Recognition of Speech Foundation Model via Variance-Invariance-Covariance Regularization

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

RRPO: Robust Reward Policy Optimization for LLM-based Emotional TTS

Multi-Loss Learning for Speech Emotion Recognition with Energy-Adaptive Mixup an...

Multidimensional Music Aesthetic Evaluation via Semantically Consistent C-Mixup ...

Aligning Generative Music AI with Human Preferences: Methods and Challenges

Real-Time Speech Enhancement via a Hybrid ViT: A Dual-Input Acoustic-Image Featu...

Навигация