The Sound of Syntax: Finetuning and Comprehensive Evaluation of Language Models for Speech Pathology
2509.16765v1
cs.CL, cs.AI, cs.SD, eess.AS
2025-09-24
Авторы:
Fagun Patel, Duc Q. Nguyen, Sang T. Truong, Jody Vaynshtok, Sanmi Koyejo, Nick Haber
Резюме на русском
#### Контекст
Согласно данным США, более 3,4 миллиона детей страдают от языковых нарушений, требующих клинического вмешательства. Однако число лиц с квалификацией специалиста по языковым нарушениям (SLPs) составляет всего 20 раз меньше, чем число детей, что вызывает значительную проблему в оказании медицинской помощи и вызывает необходимость в технологической поддержке. Многомодальные языковые модели (MLMs) показали себя как перспективные инструменты для поддержки SLPs, но их применение в клинических условиях остается недостаточно изученным. Основным мотивом исследования является заполнение этой лакуны, чтобы определить потенциал и ограничения этих моделей в этой области.
#### Метод
Мы сотрудничали с клиническими специалистами для определения реальных ситуаций, в которых могут применяться MLMs в области языковых нарушений. На основе этого, мы разработали первую полную бенчмарк-сеть для оценки MLMs, включающую 5 основных классов задач с 1000 мануально аннотированными данными для каждого класса. Мы продумали тесты на жесткость и чувствительность, включая условия с фоновым шумом, разными половыми и акцентными особенностями. Мы проверили 15 лидирующих MLMs, которые определяются в соответствии с тестами, и оценили их взаимосвязь с различными условиями.
#### Результаты
Наши эксперименты показали, что ни одна модель не показала стабильного лидера во всех задачах. Мы обнаружили четкие диспаритеты, в частности, модели показали лучшую точность для мужских речевых звуков. Мы также обнаружили, что chain-of-thought prompting может ухудшать точность классификации в случаях, когда параметры языковой модели требуют высокой точности и узких границ между классами. Мы также проверили технику файн-тюнинга MLMs на определенном клиническом видео, получив улучшения до 30% по сравнению с базовыми моделями. Эти результаты подчеркивают как возможности, так и ограничения текущих MLMs в сфере языковых нарушений.
#### Значимость
Наши полученные методики и результаты могут быть применены в широкой сфере языковых нарушений, включая тестирование и оптимизацию новых технологий. Наша работа обозначает значительные преимущества технологической поддержки в данной области, которая может повысить производительность SLPs и улучшить доступ к значительной поддержке для детей. Мы также выделили возможности для дальнейшего исследования, в том числе изучение улучшений моделей и их применения в широких клинических условиях.
#### Выводы
Наша работа ставится в значительное продолжение исследований в области многомодальных языковых моделей для клинических це
Abstract
According to the U.S. National Institutes of Health, more than 3.4 million
children experience speech disorders that require clinical intervention. The
number of speech-language pathologists (SLPs) is roughly 20 times fewer than
the number of affected children, highlighting a significant gap in children's
care and a pressing need for technological support that improves the
productivity of SLPs. State-of-the-art multimodal language models (MLMs) show
promise for supporting SLPs, but their use remains underexplored largely due to
a limited understanding of their performance in high-stakes clinical settings.
To address this gap, we collaborate with domain experts to develop a taxonomy
of real-world use cases of MLMs in speech-language pathologies. Building on
this taxonomy, we introduce the first comprehensive benchmark for evaluating
MLM across five core use cases, each containing 1,000 manually annotated data
points. This benchmark includes robustness and sensitivity tests under various
settings, including background noise, speaker gender, and accent. Our
evaluation of 15 state-of-the-art MLMs reveals that no single model
consistently outperforms others across all tasks. Notably, we find systematic
disparities, with models performing better on male speakers, and observe that
chain-of-thought prompting can degrade performance on classification tasks with
large label spaces and narrow decision boundaries. Furthermore, we study
fine-tuning MLMs on domain-specific data, achieving improvements of over 30%
compared to base models. These findings highlight both the potential and
limitations of current MLMs for speech-language pathology applications,
underscoring the need for further research and targeted development.