Bridging ASR and LLMs for Dysarthric Speech Recognition: Benchmarking Self-Supervised and Generative Approaches

2508.08027v1 cs.SD, cs.AI, eess.AS 2025-08-13
Авторы:

Ahmed Aboeitta, Ahmed Sharshar, Youssef Nafea, Shady Shehata

Резюме на русском

## Контекст Синтетическая параллельная ассоциация (Speech Recognition, ASR) является важной задачей в области обработки естественного языка, которая направлена на то, чтобы конвертировать речевые сигналы в текст. Однако, речевые сигналы, пострадавшие от дисартрии, представляют собой особый вызов для ASR из-за сочетания значительных расхождений в произношении, вызванных звуковыми и грамматическими искажениями, а также вариабельности произношения. Эти факторы сильно сказываются на качестве распознавания, чаще всего приводят к высокой стоимости ошибок. Несмотря на прогресс в сфере машинного обучения, в том числе с использованием самостоятельно организованных (self-supervised) моделей ASR, таких как Wav2Vec, HuBERT и Whisper, их эффективность в распознавании речи дисартрии остается неоднозначной. Этот аспект мотивирует разработку новых подходов, которые могут улучшить распознавание речи дисартрии, учитывая сложившуюся ситуацию. ## Метод Для решения этой проблемы были задействованы несколько ASR-моделей, включая Wav2Vec, HuBERT, и Whisper, в сочетании с различными стратегиями декодирования: CTC, seq2seq, и генерирующими моделями типа BART, GPT-2, и Vicuna. Эти модели были доведены до состояния приемлемого рабочего состояния с помощью данных, специально подготовленных для распознавания речи дисартрии. Архитектура включала стандартные слои преобразования фичи, выделение эмбединга, а также слои для моделирования постоянных представлений звуков. Для оценки эффективности систем были использованы метрики, такие как Word Error Rate (WER), обобщенность моделей была оценена с помощью перекрестной оценки тестовых данных. Были применены техники, такие как преобразование наборов данных и методы вероятностного декодирования, для улучшения общей точности и обобщаемости систем. ## Результаты В ходе экспериментов проанализированы показатели распознавания речи дисартрии с использованием различных моделей ASR и декодирования. Оказалось, что LLM-подключенные стратегии декодирования, такие как BART и Vicuna, показали существенный улучшение в точности, особенно в случае с сильно дисартрическими сигналами. Исследование показало, что эти модели могут улучшить распознавание, используя грамматические и лексические контексты для улучшения интеллектуальности и точности. Также было отмечено, что различные модели ASR показали различия в производительности в зависимости от серьезности дисартрии. Для улучшения общей обобщаемости, были применены методы скрещивания данных, что позволило улучшить поведение моделей на неизвестных данных. ## Значимость Результаты работы имеют значимую значимост

Abstract

Speech Recognition (ASR) due to phoneme distortions and high variability. While self-supervised ASR models like Wav2Vec, HuBERT, and Whisper have shown promise, their effectiveness in dysarthric speech remains unclear. This study systematically benchmarks these models with different decoding strategies, including CTC, seq2seq, and LLM-enhanced decoding (BART,GPT-2, Vicuna). Our contributions include (1) benchmarking ASR architectures for dysarthric speech, (2) introducing LLM-based decoding to improve intelligibility, (3) analyzing generalization across datasets, and (4) providing insights into recognition errors across severity levels. Findings highlight that LLM-enhanced decoding improves dysarthric ASR by leveraging linguistic constraints for phoneme restoration and grammatical correction.

Ссылки и действия