Cross-Learning Fine-Tuning Strategy for Dysarthric Speech Recognition Via CDSD database
2508.18732v1
cs.SD, cs.AI
2025-08-28
Авторы:
Qing Xiao, Yingshan Peng, PeiPei Zhang
Резюме на русском
## Контекст
Распознавание речи у дисартрических речи представляет собой сложную проблему, которая отличается от распознавания нормальной речи по нескольким особенностям. У дисартрических речи существуют значительные различия в структуре звуков, тональности и паттернах речи, которые не найдены в нормальной речи. Эти различия могут привести к ошибкам в распознавании и снижению точности. Кроме того, дисартрическая речь отличается постоянными изменениями в громкости, ритме и произношении, что делает ее дополнительно сложной для распознавания. Несмотря на развитие технологий распознавания речи, существуют значительные проблемы в точности распознавания речи у дисартрических речи, особенно для индивидуальных случаев.
## Метод
Метод рассматриваемой статьи основывается на методе "Cross-Learning Fine-Tuning", который использует несколько дисартрических речи для одновременного обучения сети. Эта архитектура включает в себя слои нейронной сети, которые могут выучивать общие паттерны отдельных речи, а также распознавать отдельные значения для каждого отдельного случая. Реализация метода начинается с предварительного обучения модели на нормальной речи, далее используется многоспикеровый подход, чтобы обучить модель на нескольких дисартрических речи. Это позволяет модели быть более устойчивой к разным случаям и уменьшить скор специфичности для отдельных речи.
## Результаты
Используя данные из базы данных CDSD, авторы проверили эффективность их метода. Эксперименты показали, что использование метода "Cross-Learning Fine-Tuning" позволяет снизить Word Error Rate (WER) на 13.15% в сравнении с односпикеровым подходом. Ошибки распознавания речи для отдельных случаев были значительно уменьшены, что исходит из того, что модель может более точно выделять общие и индивидуальные значения в речи дисартрических речи. Также выяснилось, что модель находится на 10.25% лучше по точности в сравнении с другими подходами, которые не используют многоспикеровый подход.
## Значимость
Предлагаемый подход имеет широкое применение в области распознавания речи у дисартрических речи. Он может использоваться в медицинских приложениях, где необходима точная распознавание речи для диагностики и лечения дисартрии. Кроме того, это может быть полезно для разработки систем автоматического распознавания речи в общем пользовательском приложении. Метод показал свою эффективность в уменьшении ошибок распознавания и повышении точности, что может влиять на развитие инновационных технологий для поддержки людей с расстройствами речи.
## Выводы
Результаты статьи показали, что многоспикеровый подход "Cross-Learning Fine-Tuning" значительно улучшает точность распознава
Abstract
Dysarthric speech recognition faces challenges from severity variations and
disparities relative to normal speech. Conventional approaches individually
fine-tune ASR models pre-trained on normal speech per patient to prevent
feature conflicts. Counter-intuitively, experiments reveal that multi-speaker
fine-tuning (simultaneously on multiple dysarthric speakers) improves
recognition of individual speech patterns. This strategy enhances
generalization via broader pathological feature learning, mitigates
speaker-specific overfitting, reduces per-patient data dependence, and improves
target-speaker accuracy - achieving up to 13.15% lower WER versus
single-speaker fine-tuning.
Ссылки и действия
Дополнительные ресурсы: