Idiosyncratic Versus Normative Modeling of Atypical Speech Recognition: Dysarthric Case Studies

2509.16718v1 cs.SD, cs.CL, eess.AS 2025-09-24
Авторы:

Vishnu Raja, Adithya V Ganesan, Anand Syamkumar, Ritwik Banerjee, H Andrew Schwartz

Резюме на русском

#### Контекст Автоматическое распознавание речи (ASR) является важной областью исследований в сфере искусственного интеллекта, которая позволяет людям взаимодействовать с технологиями с помощью речи. Однако существуют значительные проблемы при распознавании речи, произносимой людьми с необычным речью, такими как дисартрия. Несмотря на высокую точность современных ASR-систем для типичной речи, они часто проваливаются при работе с необычной речи. Данная статья основывается на мотивации повысить точность распознавания речи для таких подпространств. Для этого необходимо разработать модели, которые могут объединить общие модели (нормативные) и более частные модели, учитывающие индивидуальности речи. #### Метод Мы использовали четыре стратегии моделирования для распознавания необычной речи: (a) **нормативные модели**, обученные на типичной речи без любого личного адаптирования, (b) **идиосинкретные модели**, полностью персонализированные для каждого человека, (c) **дизартрические нормативные модели**, обученные на речи других дисартрических говорящих, и (d) **дизартрические идиосинкретные модели**, которые объединяют подходы, начиная с общей модели речи, а затем адаптируясь к индивидуальному речевому паттерну данного говорящего. Мы провели эксперименты на данных, содержащих речи с дисартрией, использовали метрики ошибок слов (WER) для оценки точности распознавания. #### Результаты Модель **дизартрического идиосинкретного** подхода показала лучший результат, предоставив значительно более низкую ошибку слов (WER) по сравнению с идиосинкретным подходом. Она работала с меньшим количеством личных данных (128 обучающих примеров), сравнительно с более широким набором данных (256 примеров), но по-прежнему показала лучший результат (36.43 WER на 128 примеров против 36.99 WER на 256 примеров). Было также выяснено, что адаптация только спектральной части речи (метод спектрального тюнинга) приводит к самым значительным повышениям качества в распознавании речи. #### Значимость Результаты показали, что комбинирование общих моделей речи (нормативных) и моделей, адаптированных к индивидуальности речи, может значительно повысить точность распознавания речи для подпространств, таких как дисартрия. Этот подход может быть применен для распознавания речи в других специфических группах, где естественная речь отличается от нормативных моделей. Данные же результаты могут быть использованы для снижения частоты ошибок в распознавании речи и для повышения того, насколько естественным будет взаимодействие между людьми и системами ASR. #### Выводы Наша исследователь

Abstract

State-of-the-art automatic speech recognition (ASR) models like Whisper, perform poorly on atypical speech, such as that produced by individuals with dysarthria. Past works for atypical speech have mostly investigated fully personalized (or idiosyncratic) models, but modeling strategies that can both generalize and handle idiosyncracy could be more effective for capturing atypical speech. To investigate this, we compare four strategies: (a) $\textit{normative}$ models trained on typical speech (no personalization), (b) $\textit{idiosyncratic}$ models completely personalized to individuals, (c) $\textit{dysarthric-normative}$ models trained on other dysarthric speakers, and (d) $\textit{dysarthric-idiosyncratic}$ models which combine strategies by first modeling normative patterns before adapting to individual speech. In this case study, we find the dysarthric-idiosyncratic model performs better than idiosyncratic approach while requiring less than half as much personalized data (36.43 WER with 128 train size vs 36.99 with 256). Further, we found that tuning the speech encoder alone (as opposed to the LM decoder) yielded the best results reducing word error rate from 71% to 32% on average. Our findings highlight the value of leveraging both normative (cross-speaker) and idiosyncratic (speaker-specific) patterns to improve ASR for underrepresented speech populations.

Ссылки и действия