Out of the Box, into the Clinic? Evaluating State-of-the-Art ASR for Clinical Applications for Older Adults

2508.08684v1 cs.CL, cs.CY 2025-08-14
Авторы:

Bram van Dijk, Tiberon Kuiper, Sirin Aoulad si Ahmed, Armel Levebvre, Jake Johnson, Jan Duin, Simon Mooijaart, Marco Spruit

Резюме на русском

#### Контекст Говорящие интерфейсы, такие как чатботы, могут стать важной поддержкой для старших поколений в клинических контекстах. Однако надежная технология звукового распознавания (ASR) для относительно мало représénteванных групп, таких как пенсионеры, остается значимой проблемой. Обучение ASR-систем под конкретную аудиторию требует больших объемов данных, что сложно в рамках данной целевой группы. В данном исследовании оцениваются современные мультилингвовые и прикладные модели ASR на голландском языке, используя реальные данные от пользователей Welzijn.AI, чатбота разработанного для старшего поколения. Основная задача — определить, достаточно ли готовых моделей для решения этой задачи или нужно применять дополнительное применение и усовершенствования. #### Метод Для исследования были использованы данные, собранные при взаимодействии с Welzijn.AI. Для оценки ASR-систем применялось звуковые фрагменты, на которых звучали вопросы и ответы пользователей. Оценивались три типа моделей: 1) готовые мультилингвовые модели; 2) модели, прикладной язык голландский старого поколения; 3) модели с архитектурой, обрезанной для ускорения работы. Оценивались качество распознавания (WER — Word Error Rate) и скорость обработки. #### Результаты Результаты показали, что мультилингвовые модели показали лучшие результаты по WER по сравнению с прикладными моделями, учитывая стандартные данные. Обрезанные модели показали схожий WER, но с меньшим временем работы. Однако были замечены случаи высокого WER из-за "халлуцинаций" — неправильных распознанных слов, которые могут сильно затруднить интеракцию. #### Значимость Полученные результаты показывают, что современные мультилингвовые модели ASR могут быть эффективно применены в клинических приложениях без дополнительных адаптаций. Это экономит время на обучении и позволяет широко применять готовые решения. Также, обрезанные модели могут быть полезны в ситуациях, когда требуется быстрая обработка, не жертвуя слишком сильно качеством. Однако, эти модели требуют дополнительного контроля, так как их могут сильно сказывать "халлуцинации". #### Выводы Основное достижение — показана эффективность мультилингвовых моделей ASR в клинических контекстах, даже без дополнительного тренирования. Будущие исследования будут сфокусированы на уменьшении "халлуцинаций" в моделях, чтобы сделать их более надежными для реальных клинических сценариев. Также будет рассмотрено расширение решений для других языков и поддержки региональных акцентов.

Abstract

Voice-controlled interfaces can support older adults in clinical contexts, with chatbots being a prime example, but reliable Automatic Speech Recognition (ASR) for underrepresented groups remains a bottleneck. This study evaluates state-of-the-art ASR models on language use of older Dutch adults, who interacted with the Welzijn.AI chatbot designed for geriatric contexts. We benchmark generic multilingual ASR models, and models fine-tuned for Dutch spoken by older adults, while also considering processing speed. Our results show that generic multilingual models outperform fine-tuned models, which suggests recent ASR models can generalise well out of the box to realistic datasets. Furthermore, our results suggest that truncating existing architectures is helpful in balancing the accuracy-speed trade-off, though we also identify some cases with high WER due to hallucinations.

Ссылки и действия