Data-Efficient ASR Personalization for Non-Normative Speech Using an Uncertainty-Based Phoneme Difficulty Score for Guided Sampling
2509.20396v1
eess.AS, cs.AI, cs.SD
2025-09-26
Авторы:
Niclas Pokel, Pehuén Moure, Roman Boehringer, Yingqiang Gao
Резюме на русском
## Контекст
Основной акцент в данном исследовании размещен на развитии эффективных методов персонализации автоматической распознавательной системы речи (ASR) для нестандартного речи, которая возникает у индивидов с нарушениями, вызванными такими состояниями, как шизофрения или структурные аномалии. Эти нарушения приводят к высокой акустической вариабельности и ограниченному количеству данных для обучения, что существенно снижает качество работы ASR-систем. Недостаточная точность распознавания речи может ограничить возможности коммуникации для пользователей с нестандартной речью, что делает развитие данной области крайне актуальным. Это исследование адресуется вопросу развития методов, которые могут улучшить точность распознавания для нестандартной речи за счет индивидуализированного тестирования.
## Метод
Для достижения поставленных целей, разработчики применяют метод, основанный на моделировании неопределенности, с использованием Monte Carlo Dropout. Это позволяет оценивать уровень неуверенности модели в распознавании отдельных фонем. Эти оценки используются для выделения самых сложных фонем для модели и применения так называемого "отбора на уровне фонемов" (guided sampling). Эта методика позволяет сосредоточиться на сложных для распознавания фонемах, улучшая при этом эффективность обучения. Метод был проверен на двух языках - английском и немецком, что дает возможность проверить его на разных типах нестандартной речи.
## Результаты
Эксперименты проводились на двух языках - английском и немецком, чтобы оценить эффективность метода в разных контекстах. Результаты показали, что модель, использующая уровень неуверенности для проведения отбора фонем, показывает значительный рост точности распознавания речи по сравнению с базовой ASR-системой. В частности, улучшение было замечено в случаях, когда модель выделяла самые сложно распознаваемые фонемы. Это демонстрирует, что модель способна эффективно адаптироваться к индивидуальным особенностям речи, что является ключевым преимуществом.
## Значимость
Разработанный метод имеет потенциал для применения в различных областях, где нестандартная речь является природной, например, в системах оповещения для инвалидов, в системах поддержки для людей с ограниченными возможностями и в медицинской практике. Одним из основных преимуществ является увеличение точности распознавания речи, что делает систему более доступной и полезной для пользователей. Это также открывает новые возможности для персонализации ASR-систем, что может привести к улучшению интеграции таких систем в существующие технологии.
## Выводы
В итоге, разработанный метод является эффек
Abstract
Automatic speech recognition (ASR) systems struggle with non-normative speech
from individuals with impairments caused by conditions like cerebral palsy or
structural anomalies. The high acoustic variability and scarcity of training
data severely degrade model performance. This work introduces a data-efficient
personalization method that quantifies phoneme-level uncertainty to guide
fine-tuning. We leverage Monte Carlo Dropout to estimate which phonemes a model
finds most difficult and use these estimates for a targeted oversampling
strategy. We validate our method on English and German datasets. Crucially, we
demonstrate that our model-derived uncertainty strongly correlates with
phonemes identified as challenging in an expert clinical logopedic report,
marking, to our knowledge, the first work to successfully align model
uncertainty with expert assessment of speech difficulty. Our results show that
this clinically-validated, uncertainty-guided sampling significantly improves
ASR accuracy, delivering a practical framework for personalized and inclusive
ASR.
Ссылки и действия
Дополнительные ресурсы: