Unveiling the Landscape of Clinical Depression Assessment: From Behavioral Signatures to Psychiatric Reasoning

2508.04531v1 cs.CL, cs.AI 2025-08-08

Авторы:

Zhuang Chen, Guanqun Bi, Wen Zhang, Jiawei Hu, Aoyun Wang, Xiyao Xiao, Kun Feng, Minlie Huang

Резюме на русском

## КОНТЕКСТ И ПРОБЛЕМАТИКА Депрессия представляет собой одно из наиболее распространенных психических расстройств, затрагивающее миллионы людей по всему миру и оказывающее значительное влияние на качество жизни, социальную адаптацию и экономическое благополучие общества. Несмотря на активное развитие методов автоматической диагностики психических расстройств, современные исследования в области автоматизированной оценки депрессии сталкиваются с рядом критических проблем. Во-первых, большинство существующих работ опираются на ограниченные или непроверенные клиническим сообществом наборы данных, что подрывает достоверность и обобщаемость получаемых результатов. Во-вторых, исследователи часто делают акцент на разработке сложных моделей машинного обучения, жертвуя при этом клинической значимостью и практической применимостью в реальных условиях медицинской практики. Существующий разрыв между академическими исследованиями и клинической реальностью проявляется в отсутствии стандартизированных протоколов диагностики, недостаточной валидации методов на репрезентативных когортах пациентов и ограниченном использовании мультимодальных данных, которые могут отражать комплексную картину психического состояния пациента. Традиционные подходы часто игнорируют важность поведенческих маркеров, которые могут быть выявлены через структурированные клинические задания, а также недооценивают роль экспертного клинического заключения в процессе формирования диагноза. Эти проблемы требуют комплексного решения, включающего создание достоверных клинических наборов данных, разработку методов, учитывающих специфику психиатрического диагностического процесса, и переосмысление роли искусственного интеллекта в контексте клинического мышления. ## ПРЕДЛОЖЕННЫЙ МЕТОД Авторы статьи представляют C-MIND — инновационный клинический нейропсихиатрический мультимодальный диагностический набор данных, собранный в течение двух лет в условиях реальных стационарных обращений. Каждый участник проходил три структурированных психиатрических задания, разработанных для выявления специфических поведенческих паттернов, связанных с депрессией. В процессе выполнения заданий фиксировались аудио- и видеосигналы, создавались расшифровки речи, а также регистрировались данные функциональной ближней инфракрасной спектроскопии (fNIRS), позволяющие оценить активность префронтальной коры мозга. Финальный диагноз каждого пациента формировался коллективом экспертов-клиницистов на основе полного клинического обследования. Методология исследования включает несколько этапов. На первом этапе проводится глубокий анализ поведенческих маркеров, релевантных для диагностики депрессии, включая особенности речевой продукции, мимические выражения, двигательную активность и паттерны межличностного взаимодействия. На втором этапе исследуется вклад различных модальностей данных в общую диагностическую точность путем обучения и сравнения классических моделей машинного обучения на отдельных и комбинированных наборах признаков. Третий этап посвящен изучению способности больших языковых моделей (LLM) воспроизводить логику психиатрического рассуждения, характерную для клинической практики. Для преодоления выявленных ограничений авторы разрабатывают метод направленного клиническим знанием обучения, который интегрирует экспертные знания в процесс рассуждения LLM, обеспечивая более точную и клинически обоснованную диагностику. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Экспериментальная часть исследования была проведена на основе C-MIND набора данных, включающего данные, собранные в течение двух лет в клинических условиях. В исследовании участвовали пациенты, проходившие диагностическое обследование в стационарных условиях, с подтвержденным диагнозом депрессии или отсутствием такового после полного клинического обследования. Каждый участник выполнял три структурированных психиатрических задания, специально разработанных для активации специфических поведенческих паттернов, связанных с депрессивными расстройствами. В процессе выполнения заданий регистрировались мультимодальные данные: аудиозаписи речи, видеозаписи поведения, расшифровки вербального контента и дан

Abstract

Depression is a widespread mental disorder that affects millions worldwide. While automated depression assessment shows promise, most studies rely on limited or non-clinically validated data, and often prioritize complex model design over real-world effectiveness. In this paper, we aim to unveil the landscape of clinical depression assessment. We introduce C-MIND, a clinical neuropsychiatric multimodal diagnosis dataset collected over two years from real hospital visits. Each participant completes three structured psychiatric tasks and receives a final diagnosis from expert clinicians, with informative audio, video, transcript, and functional near-infrared spectroscopy (fNIRS) signals recorded. Using C-MIND, we first analyze behavioral signatures relevant to diagnosis. We train a range of classical models to quantify how different tasks and modalities contribute to diagnostic performance, and dissect the effectiveness of their combinations. We then explore whether LLMs can perform psychiatric reasoning like clinicians and identify their clear limitations in realistic clinical settings. In response, we propose to guide the reasoning process with clinical expertise and consistently improves LLM diagnostic performance by up to 10% in Macro-F1 score. We aim to build an infrastructure for clinical depression assessment from both data and algorithmic perspectives, enabling C-MIND to facilitate grounded and reliable research for mental healthcare.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Unveiling the Landscape of Clinical Depression Assessment: From Behavioral Signatures to Psychiatric Reasoning

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

UW-BioNLP at ChemoTimelines 2025: Thinking, Fine-Tuning, and Dictionary-Enhanced...

AdmTree: Compressing Lengthy Context with Adaptive Semantic Trees

SignRoundV2: Closing the Performance Gap in Extremely Low-Bit Post-Training Quan...

Mitigating Catastrophic Forgetting in Target Language Adaptation of LLMs via Sou...

SEAL: Self-Evolving Agentic Learning for Conversational Question Answering over ...

Навигация