CogBench: A Large Language Model Benchmark for Multilingual Speech-Based Cognitive Impairment Assessment

2508.03360v1 cs.AI 2025-08-06
Авторы:

Feng Rui, Zhiyao Luo, Wei Wang, Yuting Song, Yong Liu, Tingting Zhu, Jianqing Li, Xingyao Wang

Резюме на русском

**Экстракт:** Автоматическая оценка когнитивного нарушения по сплошной речи является перспективным неинвазивным методом для раннего скрининга. Тем не менее, современные подходы часто ограничены в своей применимости из-за низкой универсальности при использовании в разных языковых и клинических контекстах. В данном исследовании авторы представляют CogBench — первую в своем роде систему тестирования для оценки кросс-лингвистической и межсайтовой генерализации больших языковых моделей (Large Language Models, LLMs) в задачах оценки когнитивного статуса на основе речи. Используя единый мультимодальный пайпейн, они проводят оценку на трех наборах данных (ADReSSo, NCMMSC2021-AD и CIR-E), представляющих английский и китайский языки. Результаты показывают, что традиционные модели глубокого обучения существенно теряют в эффективности при переносе между доменами. В отличие от них, LLMs, оснащенные методологией chain-of-thought prompting, демонстрируют более высокую адаптивность, хотя и остаются чувствительными к дизайну прикладного запроса. Кроме того, авторы показывают, что лёгкая файн-тюнинг-процедура LoRA (Low-Rank Adaptation) может значительно улучшить генерализацию LLMs в целевых доменах. Эти результаты открывают путь к созданию более универсальных и клинически применимых инструментов для оценки когнитивных нарушений на основе речи.

Abstract

Automatic assessment of cognitive impairment from spontaneous speech offers a promising, non-invasive avenue for early cognitive screening. However, current approaches often lack generalizability when deployed across different languages and clinical settings, limiting their practical utility. In this study, we propose CogBench, the first benchmark designed to evaluate the cross-lingual and cross-site generalizability of large language models (LLMs) for speech-based cognitive impairment assessment. Using a unified multimodal pipeline, we evaluate model performance on three speech datasets spanning English and Mandarin: ADReSSo, NCMMSC2021-AD, and a newly collected test set, CIR-E. Our results show that conventional deep learning models degrade substantially when transferred across domains. In contrast, LLMs equipped with chain-of-thought prompting demonstrate better adaptability, though their performance remains sensitive to prompt design. Furthermore, we explore lightweight fine-tuning of LLMs via Low-Rank Adaptation (LoRA), which significantly improves generalization in target domains. These findings offer a critical step toward building clinically useful and linguistically robust speech-based cognitive assessment tools.

Ссылки и действия