Variational Low-Rank Adaptation for Personalized Impaired Speech Recognition

2509.20397v1 eess.AS, cs.AI 2025-09-26

Авторы:

Niclas Pokel, Pehuén Moure, Roman Boehringer, Shih-Chii Liu, Yingqiang Gao

Резюме на русском

## Контекст Автоматическое распознавание речи (ASR) является ключевым инструментом для обеспечения доступности информации и участия в общении для широкого круга людей. Однако существуют значительные проблемы при работе ASR с нестандартной речью, в том числе речью, поврежденной в результате родовых деформаций (например, лейбенштейна-бинтова хромосомная патология) или аккуратных травм (например, инсульта, травмы или опухолей мозга). Данная проблема становится еще более актуальной в ситуациях, когда доступность данных для обучения нестандартной речи ограничена, а сбор и пометка таких данных требуют дополнительных усилий. Наша мотивация заключается в создании методов, которые могут эффективно адаптировать существующие ASR-системы к нестандартной речи с помощью минимальных дополнительных данных. ## Метод Мы предлагаем Variational Low-Rank Adaptation (VLRA) — метод, основанный на Bayesian Low-Rank Adaptation, для эффективной персонализации ASR для нестандартной речи. Метод заключается в том, чтобы избежать полного переучения модели с помощью больших данных, вместо этого используя небольшие выборки данных для нестандартной речи. Наша архитектура включает два этапа: первичный обучение модели ASR с большим объемом общего языкового материала и последующее применение VLRA для адаптации модели к конкретному говорящему. Мы используем техники низкопорядкового приближения для эффективного представления изменений в модели, которое позволяет минимизировать необходимые вычислительные ресурсы и данные. ## Результаты Мы проверили нашу модель на двух датасетах: English UA-Speech и новосозданном German BF-Sprache. У нас были данные от двух нестандартных говорящих: диагностированного с лейбенштейна-бинтовой хромосомной патологией и структурно нестандартной речи из-за структурных нарушений. Мы сравнили VLRA с другими методами, такими как fine-tuning и zero-shot learning. Наши результаты показали, что VLRA достигает существенного улучшения в ASR-точности для нестандартной речи, специфичной для каждого говорящего. Например, на тестовой выборке BF-Sprache, мы улучшили WER (Word Error Rate) с 78,5% до 25,3%, что значительно превышает эффективность других методов. ## Значимость Метод VLRA значительно повышает действительность ASR для говорящих с нестандартной речью, что может вызвать повышение уровня доступности для многих людей с различными типами повреждений речи. Этот подход требует минимальных данных для обучения, что делает его эффективным в ситуациях с низким ресурсом. Кроме того, он может быть применен в различных языках и контекстах, что делает его полезным для широкого спектра пользовате

Abstract

Speech impairments resulting from congenital disorders, such as cerebral palsy, down syndrome, or apert syndrome, as well as acquired brain injuries due to stroke, traumatic accidents, or tumors, present major challenges to automatic speech recognition (ASR) systems. Despite recent advancements, state-of-the-art ASR models like Whisper still struggle with non-normative speech due to limited training data availability and high acoustic variability. Moreover, collecting and annotating non-normative speech is burdensome: speaking is effortful for many affected individuals, while laborious annotation often requires caregivers familiar with the speaker. This work introduces a novel ASR personalization method based on Bayesian Low-rank Adaptation for data-efficient fine-tuning. We validate our method on the English UA-Speech dataset and a newly collected German speech dataset, BF-Sprache, from a child with structural speech impairment. The dataset and approach are designed to reflect the challenges of low-resource settings that include individuals with speech impairments. Our method significantly improves ASR accuracy for impaired speech while maintaining data and annotation efficiency, offering a practical path toward inclusive ASR.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Variational Low-Rank Adaptation for Personalized Impaired Speech Recognition

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Revisiting Audio-language Pretraining for Learning General-purpose Audio Represe...

Open Source State-Of-the-Art Solution for Romanian Speech Recognition

AURA Score: A Metric For Holistic Audio Question Answering Evaluation

MuFFIN: Multifaceted Pronunciation Feedback Model with Interactive Hierarchical ...

On Deepfake Voice Detection -- It's All in the Presentation

Навигация