Data-Efficient ASR Personalization for Non-Normative Speech Using an Uncertainty-Based Phoneme Difficulty Score for Guided Sampling

2509.20396v1 eess.AS, cs.AI, cs.SD 2025-09-26
Авторы:

Niclas Pokel, Pehuén Moure, Roman Boehringer, Yingqiang Gao

Резюме на русском

## Контекст Основной акцент в данном исследовании размещен на развитии эффективных методов персонализации автоматической распознавательной системы речи (ASR) для нестандартного речи, которая возникает у индивидов с нарушениями, вызванными такими состояниями, как шизофрения или структурные аномалии. Эти нарушения приводят к высокой акустической вариабельности и ограниченному количеству данных для обучения, что существенно снижает качество работы ASR-систем. Недостаточная точность распознавания речи может ограничить возможности коммуникации для пользователей с нестандартной речью, что делает развитие данной области крайне актуальным. Это исследование адресуется вопросу развития методов, которые могут улучшить точность распознавания для нестандартной речи за счет индивидуализированного тестирования. ## Метод Для достижения поставленных целей, разработчики применяют метод, основанный на моделировании неопределенности, с использованием Monte Carlo Dropout. Это позволяет оценивать уровень неуверенности модели в распознавании отдельных фонем. Эти оценки используются для выделения самых сложных фонем для модели и применения так называемого "отбора на уровне фонемов" (guided sampling). Эта методика позволяет сосредоточиться на сложных для распознавания фонемах, улучшая при этом эффективность обучения. Метод был проверен на двух языках - английском и немецком, что дает возможность проверить его на разных типах нестандартной речи. ## Результаты Эксперименты проводились на двух языках - английском и немецком, чтобы оценить эффективность метода в разных контекстах. Результаты показали, что модель, использующая уровень неуверенности для проведения отбора фонем, показывает значительный рост точности распознавания речи по сравнению с базовой ASR-системой. В частности, улучшение было замечено в случаях, когда модель выделяла самые сложно распознаваемые фонемы. Это демонстрирует, что модель способна эффективно адаптироваться к индивидуальным особенностям речи, что является ключевым преимуществом. ## Значимость Разработанный метод имеет потенциал для применения в различных областях, где нестандартная речь является природной, например, в системах оповещения для инвалидов, в системах поддержки для людей с ограниченными возможностями и в медицинской практике. Одним из основных преимуществ является увеличение точности распознавания речи, что делает систему более доступной и полезной для пользователей. Это также открывает новые возможности для персонализации ASR-систем, что может привести к улучшению интеграции таких систем в существующие технологии. ## Выводы В итоге, разработанный метод является эффек

Abstract

Automatic speech recognition (ASR) systems struggle with non-normative speech from individuals with impairments caused by conditions like cerebral palsy or structural anomalies. The high acoustic variability and scarcity of training data severely degrade model performance. This work introduces a data-efficient personalization method that quantifies phoneme-level uncertainty to guide fine-tuning. We leverage Monte Carlo Dropout to estimate which phonemes a model finds most difficult and use these estimates for a targeted oversampling strategy. We validate our method on English and German datasets. Crucially, we demonstrate that our model-derived uncertainty strongly correlates with phonemes identified as challenging in an expert clinical logopedic report, marking, to our knowledge, the first work to successfully align model uncertainty with expert assessment of speech difficulty. Our results show that this clinically-validated, uncertainty-guided sampling significantly improves ASR accuracy, delivering a practical framework for personalized and inclusive ASR.

Ссылки и действия

Связанные статьи

Unsupervised Speech Enhancement using Data-defined Priors

#### Контекст Улучшение речевых сигналов — ключевая задача в области обработки звука, нацеленная на повышение чёткости ...

2025-10-01

Selective Classifier-free Guidance for Zero-shot Text-to-speech

## Контекст Задача zero-shot text-to-speech (TTS), которая предполагает генерацию речевого сигнала на основе текстового ...

2025-09-26