Inference Gap in Domain Expertise and Machine Intelligence in Named Entity Recognition: Creation of and Insights from a Substance Use-related Dataset

2508.19467v1 cs.CL, cs.AI, cs.IR 2025-08-29
Авторы:

Sumon Kanti Dey, Jeanne M. Powell, Azra Ismail, Jeanmarie Perrone, Abeed Sarker

Резюме на русском

## Контекст Одна из наиболее актуальных проблем современной публичной ситуации является неправомерное использование опиатов. Этот вид незаконного поведения имеет значительное влияние на клиническое здравоохранение и социальное благополучие. Несмотря на важность этой проблемы, неправомерное использование опиатов часто недостаточно сообщается в традиционных системах здравоохранения. Альтернативный источник информации являются социальные сети, где пользователи честно делятся своими первоочередными впечатлениями и историями. Это делает их полезными для исследования социальных и клинических последствий неправомерного использования опиатов. Однако эта информация часто остается недостаточно использована в академических исследованиях. Для решения этой проблемы, авторы предлагают разработать и исследовать рамку для определения сущностей (NER), способную извлечь два типа самосообщенных последствий от использования опиатов: клинические (например, вызываемые отступлениями, депрессией) и социальные (например, незанятость). Для этой цели также представлен масштабируемый набор данных RedditImpacts 2.0, который улучшает предыдущие подходы с помощью новых рекомендаций по аннотации и фокусируется на первоочередных рассказах. ## Метод Для реализации рамки NER был применен метод настройки предварительно обученных моделей на классификацию текстов. Модели были подготовлены с использованием технологии трансформеров, а именно при помощи преобразователя DeBERTa-large. Оценка моделей проводилась в условиях незначительного или нулевого обучения (zero- и few-shot learning). Также осуществлялись сравнения с текущими лидирующими технологиями в области машинного обучения. Данные для тестирования были извлечены из социальных сетевых публикаций, отфильтрованных по тематике и структуре, чтобы обеспечить качественную меткунию и отражение реальных клинических и социальных проблем. ## Результаты Проведенное исследование демонстрирует, что лучшая модель NER, настроенная на данных RedditImpacts 2.0, достигла точности 61% при оценивании токенов на задачу классификации последствий от опиатов. Это результат был достигнут с помощью DeBERTa-large. Модель показала стабильную превосходность по сравнению с текущими технологиями в ключевых показателях: точности, правильности распознавания сущностей и соблюдении задач. Тем не менее, даже этот результат значительно отстает от интерспециалистского согласия (Cohen's kappa: 0.81), показывая существующую проблему в достижении полного согласия между гуманным оцениванием и машинными системами. ## Значимость Результаты этого исследовани

Abstract

Nonmedical opioid use is an urgent public health challenge, with far-reaching clinical and social consequences that are often underreported in traditional healthcare settings. Social media platforms, where individuals candidly share first-person experiences, offer a valuable yet underutilized source of insight into these impacts. In this study, we present a named entity recognition (NER) framework to extract two categories of self-reported consequences from social media narratives related to opioid use: ClinicalImpacts (e.g., withdrawal, depression) and SocialImpacts (e.g., job loss). To support this task, we introduce RedditImpacts 2.0, a high-quality dataset with refined annotation guidelines and a focus on first-person disclosures, addressing key limitations of prior work. We evaluate both fine-tuned encoder-based models and state-of-the-art large language models (LLMs) under zero- and few-shot in-context learning settings. Our fine-tuned DeBERTa-large model achieves a relaxed token-level F1 of 0.61 [95% CI: 0.43-0.62], consistently outperforming LLMs in precision, span accuracy, and adherence to task-specific guidelines. Furthermore, we show that strong NER performance can be achieved with substantially less labeled data, emphasizing the feasibility of deploying robust models in resource-limited settings. Our findings underscore the value of domain-specific fine-tuning for clinical NLP tasks and contribute to the responsible development of AI tools that may enhance addiction surveillance, improve interpretability, and support real-world healthcare decision-making. The best performing model, however, still significantly underperforms compared to inter-expert agreement (Cohen's kappa: 0.81), demonstrating that a gap persists between expert intelligence and current state-of-the-art NER/AI capabilities for tasks requiring deep domain knowledge.

Ссылки и действия