Leveraging Large Language Models for Rare Disease Named Entity Recognition

2508.09323v1 cs.CL, cs.AI 2025-08-15

Авторы:

Nan Miles Xi, Yu Deng, Lin Wang

Резюме на русском

#### Контекст Область исследований в сфере здравоохранения и биомедицинских технологий набирает обороты в последние годы. Одной из актуальных проблем является Named Entity Recognition (NER) для редких заболеваний. Эта задача имеет высокий приоритет из-за ограниченного объема доступных медицинских данных, семантической сложности описания сущностей, а также длинного хвоста распределения данных. Недостаток методик, применимых для решения этих вызовов, приводит к повышенному интересу к разработке методик, оптимизированных для этих областей. #### Метод Для решения этих проблем предлагается использовать трансформер-модель GPT-4o, которая обладает высокими возможностями в области NER. Методика использует различные техники, включая zero-shot prompting, few-shot in-context learning, retrieval-augmented generation (RAG) и task-level fine-tuning. Был разработан структурированный фреймворк, в котором включены доменные знания и правила дисамбигуации для четырех видов сущностей. Были также предложены два метода выбора семантически направленных небольших обучающих примеров, чтобы улучшить возможности в контексте обучения, уменьшив при этом усилия по маркировке данных. #### Результаты На экспериментах, проведенных на RareDis Corpus, модель GPT-4o показала весьма высокую эффективность, достигнув результатов, которые совпадают или превосходят результаты BioClinicalBERT. Таск-левел файн-тюнинг позволил достичь нового состояния искусственного интеллекта (SOTA) в NER. Анализ затрат и производительности показал, что few-shot prompting обеспечивает высокую отдачу при низких бюджетах токенов, в то время как RAG приносит незначительные дополнительные преимущества. #### Значимость Проанализированы области применения и преимущества нового подхода. Обнаружено, что новый подход может предложить значительные выгоды в области биомедицинского NER, особенно в случае редких заболеваний. Это открывает новые возможности для расширения доступа к более точным и эффективным инструментам для работы с редкими заболеваниями в медицинской практике. #### Выводы Основные достижения заключаются в том, что GPT-4o, оптимизированная с применением структурированных фреймворков для NER, может стать эффективным решением в биомедицинской области, особенно в сфере редких заболеваний. Для будущих исследований предлагается углубить анализ ошибок, внедрить гибридные решения и использовать развитие технологий для улучшения текущей модели.

Abstract

Named Entity Recognition (NER) in the rare disease domain poses unique challenges due to limited labeled data, semantic ambiguity between entity types, and long-tail distributions. In this study, we evaluate the capabilities of GPT-4o for rare disease NER under low-resource settings, using a range of prompt-based strategies including zero-shot prompting, few-shot in-context learning, retrieval-augmented generation (RAG), and task-level fine-tuning. We design a structured prompting framework that encodes domain-specific knowledge and disambiguation rules for four entity types. We further introduce two semantically guided few-shot example selection methods to improve in-context performance while reducing labeling effort. Experiments on the RareDis Corpus show that GPT-4o achieves competitive or superior performance compared to BioClinicalBERT, with task-level fine-tuning yielding new state-of-the-art (SOTA) results. Cost-performance analysis reveals that few-shot prompting delivers high returns at low token budgets, while RAG offers marginal additional benefit. An error taxonomy highlights common failure modes such as boundary drift and type confusion, suggesting opportunities for post-processing and hybrid refinement. Our results demonstrate that prompt-optimized LLMs can serve as effective, scalable alternatives to traditional supervised models in biomedical NER, particularly in rare disease applications where annotated data is scarce.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Leveraging Large Language Models for Rare Disease Named Entity Recognition

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

UW-BioNLP at ChemoTimelines 2025: Thinking, Fine-Tuning, and Dictionary-Enhanced...

AdmTree: Compressing Lengthy Context with Adaptive Semantic Trees

SignRoundV2: Closing the Performance Gap in Extremely Low-Bit Post-Training Quan...

Mitigating Catastrophic Forgetting in Target Language Adaptation of LLMs via Sou...

SEAL: Self-Evolving Agentic Learning for Conversational Question Answering over ...

Навигация