A Multi-Stage Large Language Model Framework for Extracting Suicide-Related Social Determinants of Health

2508.05003v1 cs.CL, cs.AI 2025-08-09
Авторы:

Song Wang, Yishu Wei, Haotian Ma, Max Lovitt, Kelly Deng, Yuan Meng, Zihan Xu, Jingze Zhang, Yunyu Xiao, Ying Ding, Xuhai Xu, Joydeep Ghosh, Yifan Peng

Резюме на русском

## КОНТЕКСТ И ПРОБЛЕМАТИКА Раскрытие социальных детерминантов здоровья (SDoH), связанных с суицидальностью, является ключевым для ранней идентификации рисков и разработки эффективных программ профилактики. SDoH включают в себя широкий спектр факторов, таких как социально-экономические условия, доступность медицинских услуг, социальные поддерживающие сети и психологические условия, которые могут существенно повлиять на риск суицидального поведения. Однако исследования в этой области сталкиваются с рядом проблем. Во-первых, распределение SDoH-факторов характеризуется длиннохвостым распределением, где некоторые факторы являются редкими, но крайне важными. Это создает сложности для традиционных моделей, которые часто не могут эффективно обрабатывать редкие факторы. Во-вторых, анализ ключевых стрессоров, которые предшествуют суицидальным инцидентам, представляет собой трудную задачу из-за неструктурированности данных, таких как клинические записи, социальные медиа-посты и другие текстовые источники. Наконец, проблема объяснимости моделей остается критической, так как для эффективного применения необходимо, чтобы результаты модели были интерпретируемыми и понятными для клиницистов и исследователей. Целью данного исследования является разработка эффективного подхода для извлечения SDoH-факторов из неструктурированных текстов, с целью улучшения точности, эффективности и объяснимости таких моделей. ## ПРЕДЛОЖЕННЫЙ МЕТОД Авторы предлагают многоступенчатый фреймворк на основе больших языковых моделей (LLM) для извлечения SDoH-факторов. Этот фреймворк состоит из нескольких этапов, начиная с предварительной обработки данных, затем идет фильтрация и извлечение ключевых фрагментов текста, содержащих потенциальные SDoH-факторы. Затем применяется модель файн-тюнинга, специально адаптированная для задачи извлечения SDoH. Ключевой особенностью этого фреймворка является его многоступенчатая архитектура, которая позволяет постепенно уточнять результаты. На каждом этапе модель выполняет более глубокий анализ текста, с тем чтобы выявить все более тонкие и контекстуальные факторы. Для этого используются различные модели, включая BioBERT, GPT-3.5-turbo и DeepSeek-R1. Кроме того, фреймворк включает механизмы для генерации объяснений, которые помогают пользователям понять, почему модель выделила определенные факторы. Также исследование сравнивает производительность этого фреймворка с другими современными моделями, такими как BioBERT и GPT-3.5-turbo, чтобы оценить его эффективность. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Авторы провели ряд экспериментов для оценки эффективности предложенного фреймворка. Эксперименты включали автоматические оценки на больших наборах данных, а также пилотное исследование с участием пользователей. В результате, предложенный фреймворк показал значительное улучшение по сравнению с другими моделями в задаче извлечения SDoH-факторов. Он не только повысил точность извлечения, но и предоставил более подробные объяснения, что способствовало быстрому и точному аннотированию данных. Использование файн-тюнинга для меньшей, задаче-специфической модели также показало хорошие результаты, сократившие затраты на вычисления при сохранении высокой точности. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предложенный фреймворк имеет значительное практическое применение в области психического здоровья и профилактики суицидов. Благодаря высокой точности и объяснимости модели, он может быть использован для ранней идентификации людей, находящихся в рисковой группе. Это может повлиять на разработку более эффективных стратегий профилактики и поддержки людей, которые могут быть подвержены суицидальным мыслям. Кроме того, фреймворк может быть применен в клинической практике для анализа клинических записей и других текстовых данных, что позволит клиницистам быстрее и точнее определять факторы риска. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ Исследование демонстрирует успех многоступенчатого фреймворка для извлечения SDoH-факторов, связанных с суицидальностью. Он не только повышает точность и эффективность извлечения, но и улучшает объяснимость модели, что является критическим для клинического применения. В будущем, исследователи могут расширить этот подход, включив более широкие наборы данных и разработав более продвинутые методы для анализа контекста и взаимосвязей между различными факторами. Это может привести к еще более точным и информативным моделям, которые будут играть важную роль в снижении суицидального риска.

Abstract

Background: Understanding social determinants of health (SDoH) factors contributing to suicide incidents is crucial for early intervention and prevention. However, data-driven approaches to this goal face challenges such as long-tailed factor distributions, analyzing pivotal stressors preceding suicide incidents, and limited model explainability. Methods: We present a multi-stage large language model framework to enhance SDoH factor extraction from unstructured text. Our approach was compared to other state-of-the-art language models (i.e., pre-trained BioBERT and GPT-3.5-turbo) and reasoning models (i.e., DeepSeek-R1). We also evaluated how the model's explanations help people annotate SDoH factors more quickly and accurately. The analysis included both automated comparisons and a pilot user study. Results: We show that our proposed framework demonstrated performance boosts in the overarching task of extracting SDoH factors and in the finer-grained tasks of retrieving relevant context. Additionally, we show that fine-tuning a smaller, task-specific model achieves comparable or better performance with reduced inference costs. The multi-stage design not only enhances extraction but also provides intermediate explanations, improving model explainability. Conclusions: Our approach improves both the accuracy and transparency of extracting suicide-related SDoH from unstructured texts. These advancements have the potential to support early identification of individuals at risk and inform more effective prevention strategies.

Ссылки и действия