A Comprehensive Survey of Datasets for Clinical Mental Health AI Systems
2508.09809v1
cs.CL, cs.AI
2025-08-15
Авторы:
Aishik Mandal, Prottay Kumar Adhikary, Hiba Arnaout, Iryna Gurevych, Tanmoy Chakraborty
Резюме на русском
## Контекст
Повышение частоты ментальных расстройств в мире является серьезной социальной и здравоохраненческой проблемой. Однако доступ к квалифицированным клиническим специалистам не растет в размере, необходимом для полной поддержки пациентов. AI может стать важной дополнительной системой, помогающей в диагностике, мониторинге и лечении психиатрических расстройств. Однако эффективное использование AI в клинической психиатрии зависит от качественных клинических данных. Несмотря на рост интереса к созданию таких данных, многие из них остаются разбросанными, недокументированными или недоступными, что сделало невозможным полноценное сравнение и репликацию моделей AI. Наша статья является первым подробным обзором клинических данных для обучения систем AI в сфере клинической психиатрии.
## Метод
Мы проводим разбор и классификацию клинических данных по разным уровням: типа расстройства (например, депрессия, шизофрения), типа данных (текст, звук, физиологические сигналы), типа задач (предсказание диагноза, оценка симптомов, генерация лечения), доступности (публичные, ограниченные или частные данные) и контекста (языковой и культурный контекст). Мы также рассматриваем синтетические данные, тщательно рассматриваемые с точки зрения их ценности и ограничений.
## Результаты
Мы выявили критические пробелы в существующих данных, включая недостаточное количество длительных наблюдений, неполную культурную и языковую репрезентативность, разные стандарты сбора и означения данных, а также недостаточную представительность синтетического данных. Наш обзор подчеркивает значимость этих проблем для развития эффективных и справедливых AI-систем в клинической психиатрии.
## Значимость
Наши результаты имеют большое значение для развития систем помощи при клинических расстройствах. Данные, предоставленные в нашем обзоре, могут способствовать развитию AI-систем, которые будут более прозрачными, надёжными и доступными для клиников по всему миру. Мы предлагаем рекомендации по стандартизации данных и расширению представительности в культурном и языковом плане.
## Выводы
Наш обзор выделяет ключевые проблемы в клинических данных для AI-систем в психиатрии и даёт рекомендации для их решения. Мы направляем свои усилия на создание более открытых, доступных и эффективных данных, чтобы помочь в развитии AI, который может стать важной частью клинической практики в будущем. Будущие исследования будут нацелены на устранение этих проблем и расширение представительности данных.
Abstract
Mental health disorders are rising worldwide. However, the availability of
trained clinicians has not scaled proportionally, leaving many people without
adequate or timely support. To bridge this gap, recent studies have shown the
promise of Artificial Intelligence (AI) to assist mental health diagnosis,
monitoring, and intervention. However, the development of efficient, reliable,
and ethical AI to assist clinicians is heavily dependent on high-quality
clinical training datasets. Despite growing interest in data curation for
training clinical AI assistants, existing datasets largely remain scattered,
under-documented, and often inaccessible, hindering the reproducibility,
comparability, and generalizability of AI models developed for clinical mental
health care. In this paper, we present the first comprehensive survey of
clinical mental health datasets relevant to the training and development of
AI-powered clinical assistants. We categorize these datasets by mental
disorders (e.g., depression, schizophrenia), data modalities (e.g., text,
speech, physiological signals), task types (e.g., diagnosis prediction, symptom
severity estimation, intervention generation), accessibility (public,
restricted or private), and sociocultural context (e.g., language and cultural
background). Along with these, we also investigate synthetic clinical mental
health datasets. Our survey identifies critical gaps such as a lack of
longitudinal data, limited cultural and linguistic representation, inconsistent
collection and annotation standards, and a lack of modalities in synthetic
data. We conclude by outlining key challenges in curating and standardizing
future datasets and provide actionable recommendations to facilitate the
development of more robust, generalizable, and equitable mental health AI
systems.
Ссылки и действия
Дополнительные ресурсы: