ReDSM5: A Reddit Dataset for DSM-5 Depression Detection

2508.03399v1 cs.CL 2025-08-09
Авторы:

Eliseo Bao, Anxo Pérez, Javier Parapar

Резюме на русском

Депрессия — широко распространенное психиатрическое заболевание, часто оставаясь нераспознанным из-за проблем с доступом к клинической помощи и существующего стереотипа. Социальные сети, в том числе Reddit, хранят богатые пользовательские текстовые данные, которые могут выявлять ранние признаки депрессии. Однако существующие модели часто классифицируют посты как депрессивные или не депрессивные без связи с клиническими критериями DSM-5, что ограничивает их клиническую значимость и понятность. Для решения этой проблемы представлен ReDSM5 — корпус Reddit с 1484 постами, подробно аннотированными на уровне предложений лицензированным психологом с использованием DSM-5 симптомов. Каждый симптом сопровождается клиническим обоснованием. Этот ресурс позволяет развивать модели, которые не только обнаружат депрессию, но и обеспечат интерпретируемый клинический разбор. Были получены бенчмарки для классификации симптомов и генерации выводов, подкрепляющие будущие исследования в этой области.

Abstract

Depression is a pervasive mental health condition that affects hundreds of millions of individuals worldwide, yet many cases remain undiagnosed due to barriers in traditional clinical access and pervasive stigma. Social media platforms, and Reddit in particular, offer rich, user-generated narratives that can reveal early signs of depressive symptomatology. However, existing computational approaches often label entire posts simply as depressed or not depressed, without linking language to specific criteria from the DSM-5, the standard clinical framework for diagnosing depression. This limits both clinical relevance and interpretability. To address this gap, we introduce ReDSM5, a novel Reddit corpus comprising 1484 long-form posts, each exhaustively annotated at the sentence level by a licensed psychologist for the nine DSM-5 depression symptoms. For each label, the annotator also provides a concise clinical rationale grounded in DSM-5 methodology. We conduct an exploratory analysis of the collection, examining lexical, syntactic, and emotional patterns that characterize symptom expression in social media narratives. Compared to prior resources, ReDSM5 uniquely combines symptom-specific supervision with expert explanations, facilitating the development of models that not only detect depression but also generate human-interpretable reasoning. We establish baseline benchmarks for both multi-label symptom classification and explanation generation, providing reference results for future research on detection and interpretability.

Ссылки и действия