CogBench: A Large Language Model Benchmark for Multilingual Speech-Based Cognitive Impairment Assessment
2508.03360v1
cs.AI
2025-08-06
Авторы:
Feng Rui, Zhiyao Luo, Wei Wang, Yuting Song, Yong Liu, Tingting Zhu, Jianqing Li, Xingyao Wang
Резюме на русском
**Экстракт:**
Автоматическая оценка когнитивного нарушения по сплошной речи является перспективным неинвазивным методом для раннего скрининга. Тем не менее, современные подходы часто ограничены в своей применимости из-за низкой универсальности при использовании в разных языковых и клинических контекстах. В данном исследовании авторы представляют CogBench — первую в своем роде систему тестирования для оценки кросс-лингвистической и межсайтовой генерализации больших языковых моделей (Large Language Models, LLMs) в задачах оценки когнитивного статуса на основе речи. Используя единый мультимодальный пайпейн, они проводят оценку на трех наборах данных (ADReSSo, NCMMSC2021-AD и CIR-E), представляющих английский и китайский языки. Результаты показывают, что традиционные модели глубокого обучения существенно теряют в эффективности при переносе между доменами. В отличие от них, LLMs, оснащенные методологией chain-of-thought prompting, демонстрируют более высокую адаптивность, хотя и остаются чувствительными к дизайну прикладного запроса. Кроме того, авторы показывают, что лёгкая файн-тюнинг-процедура LoRA (Low-Rank Adaptation) может значительно улучшить генерализацию LLMs в целевых доменах. Эти результаты открывают путь к созданию более универсальных и клинически применимых инструментов для оценки когнитивных нарушений на основе речи.
Abstract
Automatic assessment of cognitive impairment from spontaneous speech offers a
promising, non-invasive avenue for early cognitive screening. However, current
approaches often lack generalizability when deployed across different languages
and clinical settings, limiting their practical utility. In this study, we
propose CogBench, the first benchmark designed to evaluate the cross-lingual
and cross-site generalizability of large language models (LLMs) for
speech-based cognitive impairment assessment. Using a unified multimodal
pipeline, we evaluate model performance on three speech datasets spanning
English and Mandarin: ADReSSo, NCMMSC2021-AD, and a newly collected test set,
CIR-E. Our results show that conventional deep learning models degrade
substantially when transferred across domains. In contrast, LLMs equipped with
chain-of-thought prompting demonstrate better adaptability, though their
performance remains sensitive to prompt design. Furthermore, we explore
lightweight fine-tuning of LLMs via Low-Rank Adaptation (LoRA), which
significantly improves generalization in target domains. These findings offer a
critical step toward building clinically useful and linguistically robust
speech-based cognitive assessment tools.
Ссылки и действия
Дополнительные ресурсы: