Retrieval-Augmented Guardrails for AI-Drafted Patient-Portal Messages: Error Taxonomy Construction and Large-Scale Evaluation
2509.22565v1
cs.CL, cs.AI, cs.IR
2025-09-30
Авторы:
Wenyuan Chen, Fateme Nateghi Haredasht, Kameron C. Black, Francois Grolleau, Emily Alsentzer, Jonathan H. Chen, Stephen P. Ma
Резюме на русском
#### Контекст
Ласкаво просимо до статті "Retrieval-Augmented Guardrails for AI-Drafted Patient-Portal Messages: Error Taxonomy Construction and Large-Scale Evaluation". У статті висвітлюються проблеми, пов’язані зі зростанням клінічного навантаження повідомлень асинхронного зв'язку між пацієнтами і клінічними працівниками через електронні реєстри хворих (EHR). До того ж, висвітлюються можливості ларж-скейл лернинг моделей (LLMs) для створення змістового і коректного клінічного змісту. Незважаючи на те, що ці моделі допомагають у формуванні відповідей, вони можуть містити клінічні неточності, помилки представлення фактів або неправильні тоні. Це вимагає розробки ефективних методів евалюції, щоб забезпечити безпеку й точність вихідних повідомлень. Наша модель розвивається на тлі цієї інтересуючої теми.
#### Метод
Методологія статті базується на **retrieval-augmented evaluation pipeline (RAEC)**. Цей метод використовує семантично схожі архівні пари повідомлень і відповідей для покращення якості оцінювання. За допомогою цього підходу модель виконує двіціфазну оцінку. Перший етап включає використання моделі DSPy для здійснення детальної експертної лінгвістичної оцінки. У другому етапі використовується кластерність знань з інституційних архівів, щоб покращити достовірність оцінки. Ця методологія призначена для шукання та оцінки помилок в клінічному змісті, тоні та коректності формування повідомлень. Архітектура роботи розроблена з баченням її як інструмент для формування "клінічних охоронних засобів" для зручного і безпечного використання шляхом LLMs.
#### Результати
У статті представлені результати експериментів з понад 1500 пацієнтських повідомлень. Результати показують, що контекстне відстежування з інституційних архівів значно покращує якість оцінювання. За допомогою DSPy-підходу виявлено, що у таких клінічних домінах, як достовірність інформації і роботу процесу, доля помилок знижується. Оцінки, зображені за допомогою двічіфазної підходу, показали кращу точність (F1 = 0.500) у порівнянні з базовим підходом (F1 = 0.256). На 100 випадків людської валідації зроблено виявлення, що контекстне відстежування покращило достовірність оцінки до 50% порівняно з 33% при застосуванні базового підходу. Це демонструє ефективні
Abstract
Asynchronous patient-clinician messaging via EHR portals is a growing source
of clinician workload, prompting interest in large language models (LLMs) to
assist with draft responses. However, LLM outputs may contain clinical
inaccuracies, omissions, or tone mismatches, making robust evaluation
essential. Our contributions are threefold: (1) we introduce a clinically
grounded error ontology comprising 5 domains and 59 granular error codes,
developed through inductive coding and expert adjudication; (2) we develop a
retrieval-augmented evaluation pipeline (RAEC) that leverages semantically
similar historical message-response pairs to improve judgment quality; and (3)
we provide a two-stage prompting architecture using DSPy to enable scalable,
interpretable, and hierarchical error detection. Our approach assesses the
quality of drafts both in isolation and with reference to similar past
message-response pairs retrieved from institutional archives. Using a two-stage
DSPy pipeline, we compared baseline and reference-enhanced evaluations on over
1,500 patient messages. Retrieval context improved error identification in
domains such as clinical completeness and workflow appropriateness. Human
validation on 100 messages demonstrated superior agreement (concordance = 50%
vs. 33%) and performance (F1 = 0.500 vs. 0.256) of context-enhanced labels vs.
baseline, supporting the use of our RAEC pipeline as AI guardrails for patient
messaging.
Ссылки и действия
Дополнительные ресурсы: