A Comprehensive Survey of Datasets for Clinical Mental Health AI Systems

2508.09809v1 cs.CL, cs.AI 2025-08-15
Авторы:

Aishik Mandal, Prottay Kumar Adhikary, Hiba Arnaout, Iryna Gurevych, Tanmoy Chakraborty

Резюме на русском

## Контекст Повышение частоты ментальных расстройств в мире является серьезной социальной и здравоохраненческой проблемой. Однако доступ к квалифицированным клиническим специалистам не растет в размере, необходимом для полной поддержки пациентов. AI может стать важной дополнительной системой, помогающей в диагностике, мониторинге и лечении психиатрических расстройств. Однако эффективное использование AI в клинической психиатрии зависит от качественных клинических данных. Несмотря на рост интереса к созданию таких данных, многие из них остаются разбросанными, недокументированными или недоступными, что сделало невозможным полноценное сравнение и репликацию моделей AI. Наша статья является первым подробным обзором клинических данных для обучения систем AI в сфере клинической психиатрии. ## Метод Мы проводим разбор и классификацию клинических данных по разным уровням: типа расстройства (например, депрессия, шизофрения), типа данных (текст, звук, физиологические сигналы), типа задач (предсказание диагноза, оценка симптомов, генерация лечения), доступности (публичные, ограниченные или частные данные) и контекста (языковой и культурный контекст). Мы также рассматриваем синтетические данные, тщательно рассматриваемые с точки зрения их ценности и ограничений. ## Результаты Мы выявили критические пробелы в существующих данных, включая недостаточное количество длительных наблюдений, неполную культурную и языковую репрезентативность, разные стандарты сбора и означения данных, а также недостаточную представительность синтетического данных. Наш обзор подчеркивает значимость этих проблем для развития эффективных и справедливых AI-систем в клинической психиатрии. ## Значимость Наши результаты имеют большое значение для развития систем помощи при клинических расстройствах. Данные, предоставленные в нашем обзоре, могут способствовать развитию AI-систем, которые будут более прозрачными, надёжными и доступными для клиников по всему миру. Мы предлагаем рекомендации по стандартизации данных и расширению представительности в культурном и языковом плане. ## Выводы Наш обзор выделяет ключевые проблемы в клинических данных для AI-систем в психиатрии и даёт рекомендации для их решения. Мы направляем свои усилия на создание более открытых, доступных и эффективных данных, чтобы помочь в развитии AI, который может стать важной частью клинической практики в будущем. Будущие исследования будут нацелены на устранение этих проблем и расширение представительности данных.

Abstract

Mental health disorders are rising worldwide. However, the availability of trained clinicians has not scaled proportionally, leaving many people without adequate or timely support. To bridge this gap, recent studies have shown the promise of Artificial Intelligence (AI) to assist mental health diagnosis, monitoring, and intervention. However, the development of efficient, reliable, and ethical AI to assist clinicians is heavily dependent on high-quality clinical training datasets. Despite growing interest in data curation for training clinical AI assistants, existing datasets largely remain scattered, under-documented, and often inaccessible, hindering the reproducibility, comparability, and generalizability of AI models developed for clinical mental health care. In this paper, we present the first comprehensive survey of clinical mental health datasets relevant to the training and development of AI-powered clinical assistants. We categorize these datasets by mental disorders (e.g., depression, schizophrenia), data modalities (e.g., text, speech, physiological signals), task types (e.g., diagnosis prediction, symptom severity estimation, intervention generation), accessibility (public, restricted or private), and sociocultural context (e.g., language and cultural background). Along with these, we also investigate synthetic clinical mental health datasets. Our survey identifies critical gaps such as a lack of longitudinal data, limited cultural and linguistic representation, inconsistent collection and annotation standards, and a lack of modalities in synthetic data. We conclude by outlining key challenges in curating and standardizing future datasets and provide actionable recommendations to facilitate the development of more robust, generalizable, and equitable mental health AI systems.

Ссылки и действия