A Multi-Stage Large Language Model Framework for Extracting Suicide-Related Social Determinants of Health
2508.05003v1
cs.CL, cs.AI
2025-08-09
Авторы:
Song Wang, Yishu Wei, Haotian Ma, Max Lovitt, Kelly Deng, Yuan Meng, Zihan Xu, Jingze Zhang, Yunyu Xiao, Ying Ding, Xuhai Xu, Joydeep Ghosh, Yifan Peng
Резюме на русском
## КОНТЕКСТ И ПРОБЛЕМАТИКА
Раскрытие социальных детерминантов здоровья (SDoH), связанных с суицидальностью, является ключевым для ранней идентификации рисков и разработки эффективных программ профилактики. SDoH включают в себя широкий спектр факторов, таких как социально-экономические условия, доступность медицинских услуг, социальные поддерживающие сети и психологические условия, которые могут существенно повлиять на риск суицидального поведения. Однако исследования в этой области сталкиваются с рядом проблем.
Во-первых, распределение SDoH-факторов характеризуется длиннохвостым распределением, где некоторые факторы являются редкими, но крайне важными. Это создает сложности для традиционных моделей, которые часто не могут эффективно обрабатывать редкие факторы. Во-вторых, анализ ключевых стрессоров, которые предшествуют суицидальным инцидентам, представляет собой трудную задачу из-за неструктурированности данных, таких как клинические записи, социальные медиа-посты и другие текстовые источники. Наконец, проблема объяснимости моделей остается критической, так как для эффективного применения необходимо, чтобы результаты модели были интерпретируемыми и понятными для клиницистов и исследователей.
Целью данного исследования является разработка эффективного подхода для извлечения SDoH-факторов из неструктурированных текстов, с целью улучшения точности, эффективности и объяснимости таких моделей.
## ПРЕДЛОЖЕННЫЙ МЕТОД
Авторы предлагают многоступенчатый фреймворк на основе больших языковых моделей (LLM) для извлечения SDoH-факторов. Этот фреймворк состоит из нескольких этапов, начиная с предварительной обработки данных, затем идет фильтрация и извлечение ключевых фрагментов текста, содержащих потенциальные SDoH-факторы. Затем применяется модель файн-тюнинга, специально адаптированная для задачи извлечения SDoH.
Ключевой особенностью этого фреймворка является его многоступенчатая архитектура, которая позволяет постепенно уточнять результаты. На каждом этапе модель выполняет более глубокий анализ текста, с тем чтобы выявить все более тонкие и контекстуальные факторы. Для этого используются различные модели, включая BioBERT, GPT-3.5-turbo и DeepSeek-R1. Кроме того, фреймворк включает механизмы для генерации объяснений, которые помогают пользователям понять, почему модель выделила определенные факторы.
Также исследование сравнивает производительность этого фреймворка с другими современными моделями, такими как BioBERT и GPT-3.5-turbo, чтобы оценить его эффективность.
## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ
Авторы провели ряд экспериментов для оценки эффективности предложенного фреймворка. Эксперименты включали автоматические оценки на больших наборах данных, а также пилотное исследование с участием пользователей.
В результате, предложенный фреймворк показал значительное улучшение по сравнению с другими моделями в задаче извлечения SDoH-факторов. Он не только повысил точность извлечения, но и предоставил более подробные объяснения, что способствовало быстрому и точному аннотированию данных. Использование файн-тюнинга для меньшей, задаче-специфической модели также показало хорошие результаты, сократившие затраты на вычисления при сохранении высокой точности.
## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ
Предложенный фреймворк имеет значительное практическое применение в области психического здоровья и профилактики суицидов. Благодаря высокой точности и объяснимости модели, он может быть использован для ранней идентификации людей, находящихся в рисковой группе. Это может повлиять на разработку более эффективных стратегий профилактики и поддержки людей, которые могут быть подвержены суицидальным мыслям.
Кроме того, фреймворк может быть применен в клинической практике для анализа клинических записей и других текстовых данных, что позволит клиницистам быстрее и точнее определять факторы риска.
## ВЫВОДЫ И ПЕРСПЕКТИВЫ
Исследование демонстрирует успех многоступенчатого фреймворка для извлечения SDoH-факторов, связанных с суицидальностью. Он не только повышает точность и эффективность извлечения, но и улучшает объяснимость модели, что является критическим для клинического применения.
В будущем, исследователи могут расширить этот подход, включив более широкие наборы данных и разработав более продвинутые методы для анализа контекста и взаимосвязей между различными факторами. Это может привести к еще более точным и информативным моделям, которые будут играть важную роль в снижении суицидального риска.
Abstract
Background: Understanding social determinants of health (SDoH) factors
contributing to suicide incidents is crucial for early intervention and
prevention. However, data-driven approaches to this goal face challenges such
as long-tailed factor distributions, analyzing pivotal stressors preceding
suicide incidents, and limited model explainability. Methods: We present a
multi-stage large language model framework to enhance SDoH factor extraction
from unstructured text. Our approach was compared to other state-of-the-art
language models (i.e., pre-trained BioBERT and GPT-3.5-turbo) and reasoning
models (i.e., DeepSeek-R1). We also evaluated how the model's explanations help
people annotate SDoH factors more quickly and accurately. The analysis included
both automated comparisons and a pilot user study. Results: We show that our
proposed framework demonstrated performance boosts in the overarching task of
extracting SDoH factors and in the finer-grained tasks of retrieving relevant
context. Additionally, we show that fine-tuning a smaller, task-specific model
achieves comparable or better performance with reduced inference costs. The
multi-stage design not only enhances extraction but also provides intermediate
explanations, improving model explainability. Conclusions: Our approach
improves both the accuracy and transparency of extracting suicide-related SDoH
from unstructured texts. These advancements have the potential to support early
identification of individuals at risk and inform more effective prevention
strategies.
Ссылки и действия
Дополнительные ресурсы: