Revealing the Role of Audio Channels in ASR Performance Degradation

2508.08967v1 cs.SD, cs.AI, cs.CL 2025-08-14

Авторы:

Kuan-Tang Huang, Li-Wei Chen, Hung-Shin Lee, Berlin Chen, Hsin-Min Wang

Резюме на русском

## Контекст Аудиосъемка через различные технические устройства оказывает существенное влияние на качество распознавания речи систем автоматического распознавания речи (ASR). Несмотря на то что предварительно обученные ASR-модели достигли впечатляющих результатов в различных языковых задачах, их работа может значительно ухудшиться при использовании аудиозаписей, полученных на разных технических устройствах. Это проблема становится особенно актуальной в условиях многоязыкового распознавания, когда звуковые файлы могут быть записаны на разных устройствах. Общепринятое мнение заключается в том, что это связано с несоответствием между аудиоданными, использованными во время обучения, и тестовыми данными. Однако, по мнению авторов, коллективный эффект различных технических устройств может затруднять распознавание речи даже в условиях соответствия типа тестовые данные — тестовые данные. Это взаимодействие требует дополнительного изучения, поскольку оно может привести к материальным потерям в работе ASR-систем, особенно в критически важных областях, таких как транскрибирование медицинских лекций или юридических документов. ## Метод Для изучения влияния технических устройств на работу ASR-системы авторы применяют методику "переобучения" (fine-tuning) — дополнительное обучение модели на аудиозаписях разных устройств. Основная идея заключается в использовании уже обученной ASR-модели, адаптированной к одному типу звуковых устройств, для повышения качества работы на других типах. Для этого используется третий набор данных, который не был использован ни при обучении, ни при тестировании. Также авторы применяют новую технику, называемую "нормализации внутренних представлений", которая предназначена для уменьшения влияния технических различий на работу ASR-системы. Эта нормализация основывается на том, чтобы выравнивать внутренние представления модели с признаками, полученными от чистого аудиоканала (например, синтетического звука, нарезанного на слова). ## Результаты Проведенные эксперименты показали, что применение нормализации внутренних представлений приводит к значительному повышению качества работы ASR-системы при распознавании речи на неизвестных устройствах. Авторы демонстрируют, что их подход может улучшить работу ASR-систем не только в различных типах техники, но и в различных языках. Например, применение нормализации внутренних представлений улучшает точность распознавания в английском, китайском и японском языках на разных устройствах. Эти результаты подтверждают то, что не только несоответствие типов технических устройств, но и внутренние погре

Abstract

Pre-trained automatic speech recognition (ASR) models have demonstrated strong performance on a variety of tasks. However, their performance can degrade substantially when the input audio comes from different recording channels. While previous studies have demonstrated this phenomenon, it is often attributed to the mismatch between training and testing corpora. This study argues that variations in speech characteristics caused by different recording channels can fundamentally harm ASR performance. To address this limitation, we propose a normalization technique designed to mitigate the impact of channel variation by aligning internal feature representations in the ASR model with those derived from a clean reference channel. This approach significantly improves ASR performance on previously unseen channels and languages, highlighting its ability to generalize across channel and language differences.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Revealing the Role of Audio Channels in ASR Performance Degradation

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Story2MIDI: Emotionally Aligned Music Generation from Text

Melody or Machine: Detecting Synthetic Music with Dual-Stream Contrastive Learni...

SpeechJudge: Towards Human-Level Judgment for Speech Naturalness

Finding My Voice: Generative Reconstruction of Disordered Speech for Automated C...

Spatial Audio Motion Understanding and Reasoning

Навигация