End-to-End Agentic RAG System Training for Traceable Diagnostic Reasoning

2508.15746v1 cs.CL, cs.AI, cs.CV 2025-08-23

Авторы:

Qiaoyu Zheng, Yuze Sun, Chaoyi Wu, Weike Zhao, Pengcheng Qiu, Yongguo Yu, Kun Sun, Yanfeng Wang, Ya Zhang, Weidi Xie

Резюме на русском

## Контекст Исследование адаптивных систем ретриева и логического рендеринга (RAG), ориентированных на лечебные задачи, является ключевым направлением в современной медицинской информатике. Одной из главных проблем является точность диагноза, которая часто страдает из-за недостатка знаний, решающихся с помощью ретриева значимых данных, и недостаточной возможности проведения методологического анализа, которая может возникнуть из-за недостаточного развития технологий анализа данных. Эти проблемы значительно сказываются на качестве предпринимаемых диагностических мер. Улучшение технологий RAG становится важным для обеспечения более точной и прозрачной диагностики, что позволяет клиническим работникам делать более надежные выводы и принимать усовершенствованные решения в области лечения. ## Метод Deep-DxSearch представляет собой агентскую систему RAG, обученную с помощью развития политики реформы использования внешнего знания и интеллектуального анализа. Для обеспечения решения диагностических задач, мы строим большой медицинский репликатор, включающий записи пациентов и достоверные медицинские источники. Основной компонент — выборка текстов, по которым обучена система, поддерживающая интеграцию внешних источников. Мы используем разработку отдельных признаков для формирования LLM-агента, который может взаимодействовать с репликатором. Благодаря reinforcement learning (RL) и техническим развитиям, мы добились того, чтобы LLM мог взаимодействовать с репликатором по сценарию, используя структурированные реакции и диагностические сигналы. ## Результаты Запуская эксперименты с Deep-DxSearch, мы применяли данные из различных медицинских центров. Это позволило нам измерить точность диагноза в задачах классической диагностики. Результаты показали, что данная система опережает другие системы, включая GPT-4o и DeepSeek-R1, как в классических задачах, так и в тех, которые подразумевают использование редких данных. Мы также проводили анализ штрафов и мотиваций внутри системы, который подтвердил значительное влияние на точность и структуру диагностического процесса. Это демонстрирует, что Deep-DxSearch может повысить роль значимых данных в диагностических сценариях. ## Значимость Система Deep-DxSearch может быть применена в различных сферах, включая клиническое лечение, оптимизацию диагностических процессов и поддержку клинических решений. Ее преимущества заключаются в том, что она обеспечивает более точные диагностические решения, повышает транспарентность в диагностическом процессе и дает клиническим работникам большую в

Abstract

Accurate diagnosis with medical large language models is hindered by knowledge gaps and hallucinations. Retrieval and tool-augmented methods help, but their impact is limited by weak use of external knowledge and poor feedback-reasoning traceability. To address these challenges, We introduce Deep-DxSearch, an agentic RAG system trained end-to-end with reinforcement learning (RL) that enables steer tracebale retrieval-augmented reasoning for medical diagnosis. In Deep-DxSearch, we first construct a large-scale medical retrieval corpus comprising patient records and reliable medical knowledge sources to support retrieval-aware reasoning across diagnostic scenarios. More crutially, we frame the LLM as the core agent and the retrieval corpus as its environment, using tailored rewards on format, retrieval, reasoning structure, and diagnostic accuracy, thereby evolving the agentic RAG policy from large-scale data through RL. Experiments demonstrate that our end-to-end agentic RL training framework consistently outperforms prompt-engineering and training-free RAG approaches across multiple data centers. After training, Deep-DxSearch achieves substantial gains in diagnostic accuracy, surpassing strong diagnostic baselines such as GPT-4o, DeepSeek-R1, and other medical-specific frameworks for both common and rare disease diagnosis under in-distribution and out-of-distribution settings. Moreover, ablation studies on reward design and retrieval corpus components confirm their critical roles, underscoring the uniqueness and effectiveness of our approach compared with traditional implementations. Finally, case studies and interpretability analyses highlight improvements in Deep-DxSearch's diagnostic policy, providing deeper insight into its performance gains and supporting clinicians in delivering more reliable and precise preliminary diagnoses. See https://github.com/MAGIC-AI4Med/Deep-DxSearch.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

End-to-End Agentic RAG System Training for Traceable Diagnostic Reasoning

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Jina-VLM: Small Multilingual Vision Language Model

Jina-VLM: Small Multilingual Vision Language Model

Lost in Translation and Noise: A Deep Dive into the Failure Modes of VLMs on Rea...

SMILE: A Composite Lexical-Semantic Metric for Question-Answering Evaluation

Multimodal Evaluation of Russian-language Architectures

Навигация