Cross-Learning Fine-Tuning Strategy for Dysarthric Speech Recognition Via CDSD database

2508.18732v1 cs.SD, cs.AI 2025-08-28
Авторы:

Qing Xiao, Yingshan Peng, PeiPei Zhang

Резюме на русском

## Контекст Распознавание речи у дисартрических речи представляет собой сложную проблему, которая отличается от распознавания нормальной речи по нескольким особенностям. У дисартрических речи существуют значительные различия в структуре звуков, тональности и паттернах речи, которые не найдены в нормальной речи. Эти различия могут привести к ошибкам в распознавании и снижению точности. Кроме того, дисартрическая речь отличается постоянными изменениями в громкости, ритме и произношении, что делает ее дополнительно сложной для распознавания. Несмотря на развитие технологий распознавания речи, существуют значительные проблемы в точности распознавания речи у дисартрических речи, особенно для индивидуальных случаев. ## Метод Метод рассматриваемой статьи основывается на методе "Cross-Learning Fine-Tuning", который использует несколько дисартрических речи для одновременного обучения сети. Эта архитектура включает в себя слои нейронной сети, которые могут выучивать общие паттерны отдельных речи, а также распознавать отдельные значения для каждого отдельного случая. Реализация метода начинается с предварительного обучения модели на нормальной речи, далее используется многоспикеровый подход, чтобы обучить модель на нескольких дисартрических речи. Это позволяет модели быть более устойчивой к разным случаям и уменьшить скор специфичности для отдельных речи. ## Результаты Используя данные из базы данных CDSD, авторы проверили эффективность их метода. Эксперименты показали, что использование метода "Cross-Learning Fine-Tuning" позволяет снизить Word Error Rate (WER) на 13.15% в сравнении с односпикеровым подходом. Ошибки распознавания речи для отдельных случаев были значительно уменьшены, что исходит из того, что модель может более точно выделять общие и индивидуальные значения в речи дисартрических речи. Также выяснилось, что модель находится на 10.25% лучше по точности в сравнении с другими подходами, которые не используют многоспикеровый подход. ## Значимость Предлагаемый подход имеет широкое применение в области распознавания речи у дисартрических речи. Он может использоваться в медицинских приложениях, где необходима точная распознавание речи для диагностики и лечения дисартрии. Кроме того, это может быть полезно для разработки систем автоматического распознавания речи в общем пользовательском приложении. Метод показал свою эффективность в уменьшении ошибок распознавания и повышении точности, что может влиять на развитие инновационных технологий для поддержки людей с расстройствами речи. ## Выводы Результаты статьи показали, что многоспикеровый подход "Cross-Learning Fine-Tuning" значительно улучшает точность распознава

Abstract

Dysarthric speech recognition faces challenges from severity variations and disparities relative to normal speech. Conventional approaches individually fine-tune ASR models pre-trained on normal speech per patient to prevent feature conflicts. Counter-intuitively, experiments reveal that multi-speaker fine-tuning (simultaneously on multiple dysarthric speakers) improves recognition of individual speech patterns. This strategy enhances generalization via broader pathological feature learning, mitigates speaker-specific overfitting, reduces per-patient data dependence, and improves target-speaker accuracy - achieving up to 13.15% lower WER versus single-speaker fine-tuning.

Ссылки и действия