Variational Low-Rank Adaptation for Personalized Impaired Speech Recognition
2509.20397v1
eess.AS, cs.AI
2025-09-26
Авторы:
Niclas Pokel, Pehuén Moure, Roman Boehringer, Shih-Chii Liu, Yingqiang Gao
Резюме на русском
## Контекст
Автоматическое распознавание речи (ASR) является ключевым инструментом для обеспечения доступности информации и участия в общении для широкого круга людей. Однако существуют значительные проблемы при работе ASR с нестандартной речью, в том числе речью, поврежденной в результате родовых деформаций (например, лейбенштейна-бинтова хромосомная патология) или аккуратных травм (например, инсульта, травмы или опухолей мозга). Данная проблема становится еще более актуальной в ситуациях, когда доступность данных для обучения нестандартной речи ограничена, а сбор и пометка таких данных требуют дополнительных усилий. Наша мотивация заключается в создании методов, которые могут эффективно адаптировать существующие ASR-системы к нестандартной речи с помощью минимальных дополнительных данных.
## Метод
Мы предлагаем Variational Low-Rank Adaptation (VLRA) — метод, основанный на Bayesian Low-Rank Adaptation, для эффективной персонализации ASR для нестандартной речи. Метод заключается в том, чтобы избежать полного переучения модели с помощью больших данных, вместо этого используя небольшие выборки данных для нестандартной речи. Наша архитектура включает два этапа: первичный обучение модели ASR с большим объемом общего языкового материала и последующее применение VLRA для адаптации модели к конкретному говорящему. Мы используем техники низкопорядкового приближения для эффективного представления изменений в модели, которое позволяет минимизировать необходимые вычислительные ресурсы и данные.
## Результаты
Мы проверили нашу модель на двух датасетах: English UA-Speech и новосозданном German BF-Sprache. У нас были данные от двух нестандартных говорящих: диагностированного с лейбенштейна-бинтовой хромосомной патологией и структурно нестандартной речи из-за структурных нарушений. Мы сравнили VLRA с другими методами, такими как fine-tuning и zero-shot learning. Наши результаты показали, что VLRA достигает существенного улучшения в ASR-точности для нестандартной речи, специфичной для каждого говорящего. Например, на тестовой выборке BF-Sprache, мы улучшили WER (Word Error Rate) с 78,5% до 25,3%, что значительно превышает эффективность других методов.
## Значимость
Метод VLRA значительно повышает действительность ASR для говорящих с нестандартной речью, что может вызвать повышение уровня доступности для многих людей с различными типами повреждений речи. Этот подход требует минимальных данных для обучения, что делает его эффективным в ситуациях с низким ресурсом. Кроме того, он может быть применен в различных языках и контекстах, что делает его полезным для широкого спектра пользовате
Abstract
Speech impairments resulting from congenital disorders, such as cerebral
palsy, down syndrome, or apert syndrome, as well as acquired brain injuries due
to stroke, traumatic accidents, or tumors, present major challenges to
automatic speech recognition (ASR) systems. Despite recent advancements,
state-of-the-art ASR models like Whisper still struggle with non-normative
speech due to limited training data availability and high acoustic variability.
Moreover, collecting and annotating non-normative speech is burdensome:
speaking is effortful for many affected individuals, while laborious annotation
often requires caregivers familiar with the speaker. This work introduces a
novel ASR personalization method based on Bayesian Low-rank Adaptation for
data-efficient fine-tuning. We validate our method on the English UA-Speech
dataset and a newly collected German speech dataset, BF-Sprache, from a child
with structural speech impairment. The dataset and approach are designed to
reflect the challenges of low-resource settings that include individuals with
speech impairments. Our method significantly improves ASR accuracy for impaired
speech while maintaining data and annotation efficiency, offering a practical
path toward inclusive ASR.
Ссылки и действия
Дополнительные ресурсы: