Leveraging Large Language Models for Rare Disease Named Entity Recognition
2508.09323v1
cs.CL, cs.AI
2025-08-15
Авторы:
Nan Miles Xi, Yu Deng, Lin Wang
Резюме на русском
#### Контекст
Область исследований в сфере здравоохранения и биомедицинских технологий набирает обороты в последние годы. Одной из актуальных проблем является Named Entity Recognition (NER) для редких заболеваний. Эта задача имеет высокий приоритет из-за ограниченного объема доступных медицинских данных, семантической сложности описания сущностей, а также длинного хвоста распределения данных. Недостаток методик, применимых для решения этих вызовов, приводит к повышенному интересу к разработке методик, оптимизированных для этих областей.
#### Метод
Для решения этих проблем предлагается использовать трансформер-модель GPT-4o, которая обладает высокими возможностями в области NER. Методика использует различные техники, включая zero-shot prompting, few-shot in-context learning, retrieval-augmented generation (RAG) и task-level fine-tuning. Был разработан структурированный фреймворк, в котором включены доменные знания и правила дисамбигуации для четырех видов сущностей. Были также предложены два метода выбора семантически направленных небольших обучающих примеров, чтобы улучшить возможности в контексте обучения, уменьшив при этом усилия по маркировке данных.
#### Результаты
На экспериментах, проведенных на RareDis Corpus, модель GPT-4o показала весьма высокую эффективность, достигнув результатов, которые совпадают или превосходят результаты BioClinicalBERT. Таск-левел файн-тюнинг позволил достичь нового состояния искусственного интеллекта (SOTA) в NER. Анализ затрат и производительности показал, что few-shot prompting обеспечивает высокую отдачу при низких бюджетах токенов, в то время как RAG приносит незначительные дополнительные преимущества.
#### Значимость
Проанализированы области применения и преимущества нового подхода. Обнаружено, что новый подход может предложить значительные выгоды в области биомедицинского NER, особенно в случае редких заболеваний. Это открывает новые возможности для расширения доступа к более точным и эффективным инструментам для работы с редкими заболеваниями в медицинской практике.
#### Выводы
Основные достижения заключаются в том, что GPT-4o, оптимизированная с применением структурированных фреймворков для NER, может стать эффективным решением в биомедицинской области, особенно в сфере редких заболеваний. Для будущих исследований предлагается углубить анализ ошибок, внедрить гибридные решения и использовать развитие технологий для улучшения текущей модели.
Abstract
Named Entity Recognition (NER) in the rare disease domain poses unique
challenges due to limited labeled data, semantic ambiguity between entity
types, and long-tail distributions. In this study, we evaluate the capabilities
of GPT-4o for rare disease NER under low-resource settings, using a range of
prompt-based strategies including zero-shot prompting, few-shot in-context
learning, retrieval-augmented generation (RAG), and task-level fine-tuning. We
design a structured prompting framework that encodes domain-specific knowledge
and disambiguation rules for four entity types. We further introduce two
semantically guided few-shot example selection methods to improve in-context
performance while reducing labeling effort. Experiments on the RareDis Corpus
show that GPT-4o achieves competitive or superior performance compared to
BioClinicalBERT, with task-level fine-tuning yielding new state-of-the-art
(SOTA) results. Cost-performance analysis reveals that few-shot prompting
delivers high returns at low token budgets, while RAG offers marginal
additional benefit. An error taxonomy highlights common failure modes such as
boundary drift and type confusion, suggesting opportunities for post-processing
and hybrid refinement. Our results demonstrate that prompt-optimized LLMs can
serve as effective, scalable alternatives to traditional supervised models in
biomedical NER, particularly in rare disease applications where annotated data
is scarce.
Ссылки и действия
Дополнительные ресурсы: