Evaluating Retrieval-Augmented Generation vs. Long-Context Input for Clinical Reasoning over EHRs
2508.14817v1
cs.CL, cs.AI
2025-08-22
Авторы:
Skatje Myers, Dmitriy Dligach, Timothy A. Miller, Samantha Barr, Yanjun Gao, Matthew Churpek, Anoop Mayampurath, Majid Afshar
Резюме на русском
## Контекст
Клинические заметки в электронных системах хранения здравоохранения (EHR) являются обширными, шумными и часто повторяющимися, что создает значительные сложности для клинического разума при работе с этими данными. Большие языковые модели (LLM) предлагают возможность автоматизировать эти задачи, но длина истории пациента часто превышает их возможности. Новые подходы, такие как Retrieval-Augmented Generation (RAG), предлагают новые возможности, используя задачу-специфичные вспомогательные данные для сокращения объема требуемых входных данных. Этот подход может быть эффективен для решения клинических задач, позволяя использовать дополнительные источники информации без необходимости обрабатывать всю историю пациента.
## Метод
Для тестирования RAG были разработаны три клинические задачи, которые могут быть повторно применены в разных системах здравоохранения: 1) извлечение процедур со сканированием, 2) генерация хронологии использования антибиотиков, и 3) идентификация ключевых диагнозов. Данные были извлечены из EHR живых пациентов, и для тестирования были использованы три языковые модели с разным количеством контекста, включая целевую выборку искомых данных и последние заметки клиников. Эксперименты были проведены с целью выявить, насколько RAG может приблизиться к полной модели, сохранив ограниченный объем входных данных.
## Результаты
Работу показали, что RAG в большинстве случаев показывает результаты, которые приближаются к полной модели, но требуют значительно меньшего объема входных данных. Например, в тестировании на генерации хронологии антибиотиков и извлечении ключевых диагнозов, RAG показала почти одинаковую точность с полной моделью, при этом использовала от 2 до 4 раз меньше входных данных. В задаче извлечения процедур со сканированием применение RAG привело к незначительному ухудшению качества, но все еще оставалось высоким.
## Значимость
Результаты показывают, что RAG является более эффективным подходом для обработки длинных EHR в клиническом контексте, чем традиционные подходы, такие как использование последних заметок. Он может быть применен в различных клинических задачах, таких как выявление ключевых диагнозов, генерация хронологии, или анализ процедур. Этот подход не только экономит ресурсы, но и может существенно улучшить точность и эффективность клинического разума.
## Выводы
Работа подтверждает значимость RAG в тех случаях, когда требуется обработка длинных и шумных данных, таких как EHR. Будущие исследования будут направлены на то, как можно улучшить RAG, оптимизировав методы поиска в
Abstract
Electronic health records (EHRs) are long, noisy, and often redundant, posing
a major challenge for the clinicians who must navigate them. Large language
models (LLMs) offer a promising solution for extracting and reasoning over this
unstructured text, but the length of clinical notes often exceeds even
state-of-the-art models' extended context windows. Retrieval-augmented
generation (RAG) offers an alternative by retrieving task-relevant passages
from across the entire EHR, potentially reducing the amount of required input
tokens. In this work, we propose three clinical tasks designed to be replicable
across health systems with minimal effort: 1) extracting imaging procedures, 2)
generating timelines of antibiotic use, and 3) identifying key diagnoses. Using
EHRs from actual hospitalized patients, we test three state-of-the-art LLMs
with varying amounts of provided context, using either targeted text retrieval
or the most recent clinical notes. We find that RAG closely matches or exceeds
the performance of using recent notes, and approaches the performance of using
the models' full context while requiring drastically fewer input tokens. Our
results suggest that RAG remains a competitive and efficient approach even as
newer models become capable of handling increasingly longer amounts of text.
Ссылки и действия
Дополнительные ресурсы: