Evaluating Retrieval-Augmented Generation vs. Long-Context Input for Clinical Reasoning over EHRs

2508.14817v1 cs.CL, cs.AI 2025-08-22
Авторы:

Skatje Myers, Dmitriy Dligach, Timothy A. Miller, Samantha Barr, Yanjun Gao, Matthew Churpek, Anoop Mayampurath, Majid Afshar

Резюме на русском

## Контекст Клинические заметки в электронных системах хранения здравоохранения (EHR) являются обширными, шумными и часто повторяющимися, что создает значительные сложности для клинического разума при работе с этими данными. Большие языковые модели (LLM) предлагают возможность автоматизировать эти задачи, но длина истории пациента часто превышает их возможности. Новые подходы, такие как Retrieval-Augmented Generation (RAG), предлагают новые возможности, используя задачу-специфичные вспомогательные данные для сокращения объема требуемых входных данных. Этот подход может быть эффективен для решения клинических задач, позволяя использовать дополнительные источники информации без необходимости обрабатывать всю историю пациента. ## Метод Для тестирования RAG были разработаны три клинические задачи, которые могут быть повторно применены в разных системах здравоохранения: 1) извлечение процедур со сканированием, 2) генерация хронологии использования антибиотиков, и 3) идентификация ключевых диагнозов. Данные были извлечены из EHR живых пациентов, и для тестирования были использованы три языковые модели с разным количеством контекста, включая целевую выборку искомых данных и последние заметки клиников. Эксперименты были проведены с целью выявить, насколько RAG может приблизиться к полной модели, сохранив ограниченный объем входных данных. ## Результаты Работу показали, что RAG в большинстве случаев показывает результаты, которые приближаются к полной модели, но требуют значительно меньшего объема входных данных. Например, в тестировании на генерации хронологии антибиотиков и извлечении ключевых диагнозов, RAG показала почти одинаковую точность с полной моделью, при этом использовала от 2 до 4 раз меньше входных данных. В задаче извлечения процедур со сканированием применение RAG привело к незначительному ухудшению качества, но все еще оставалось высоким. ## Значимость Результаты показывают, что RAG является более эффективным подходом для обработки длинных EHR в клиническом контексте, чем традиционные подходы, такие как использование последних заметок. Он может быть применен в различных клинических задачах, таких как выявление ключевых диагнозов, генерация хронологии, или анализ процедур. Этот подход не только экономит ресурсы, но и может существенно улучшить точность и эффективность клинического разума. ## Выводы Работа подтверждает значимость RAG в тех случаях, когда требуется обработка длинных и шумных данных, таких как EHR. Будущие исследования будут направлены на то, как можно улучшить RAG, оптимизировав методы поиска в

Abstract

Electronic health records (EHRs) are long, noisy, and often redundant, posing a major challenge for the clinicians who must navigate them. Large language models (LLMs) offer a promising solution for extracting and reasoning over this unstructured text, but the length of clinical notes often exceeds even state-of-the-art models' extended context windows. Retrieval-augmented generation (RAG) offers an alternative by retrieving task-relevant passages from across the entire EHR, potentially reducing the amount of required input tokens. In this work, we propose three clinical tasks designed to be replicable across health systems with minimal effort: 1) extracting imaging procedures, 2) generating timelines of antibiotic use, and 3) identifying key diagnoses. Using EHRs from actual hospitalized patients, we test three state-of-the-art LLMs with varying amounts of provided context, using either targeted text retrieval or the most recent clinical notes. We find that RAG closely matches or exceeds the performance of using recent notes, and approaches the performance of using the models' full context while requiring drastically fewer input tokens. Our results suggest that RAG remains a competitive and efficient approach even as newer models become capable of handling increasingly longer amounts of text.

Ссылки и действия