MedCoT-RAG: Causal Chain-of-Thought RAG for Medical Question Answering

2508.15849v1 cs.CL, cs.IR 2025-08-25

Авторы:

Ziyu Wang, Elahe Khatibi, Amir M. Rahmani

Резюме на русском

## Контекст Медицинские вопросы и ответы (Medical Question Answering, QA) являются ключевым приложением для здравоохранения, помогая в облегчении диагностики и поддержке клинических решений. Существующие технологии, основанные на больших языковых моделях (LLMs), демонстрируют высокий уровень точности в этой области. Однако они испытывают трудности в обработке контекстуальной и логической структуры вопросов, часто приводящих к ненадежности и ошибкам в генерации ответов. Эти ошибки часто проявляются в виде "генерированных фактов", которые не имеют реальной основы в заданной медицинской тематике. Дополнительные вызовы возникают из-за потребности в защите персональных данных и нормативных требований в медицинских приложениях. РетриEвал-аугментированная генерация (RAG) является мощным подходом для улучшения LLMs, позволяя им использовать внешние знания. Однако многие существующие RAG-решения опираются на поверхностный семантический поиск, не имея структурированной логики для клинического анализа. ## Метод MedCoT-RAG является дополнительным фреймворком, который использует выделение документов с причинно-следственной структурой (causal chain-of-thought, CoT) в сочетании с заданным набором вопросов. Он включает три ключевых компонента: (1) **Causal Retrieval Module**, реализующий логику причинно-следственных связей для выделения документов, (2) **Causal Prompt Design**, который структурирует вопросы и ответы в цепь причинно-следственных рассуждений, и (3) **LLM-based Reasoner**, использующий подкрепленное обучение (reinforcement learning) для оптимизации структурированного генерирования ответов. Фреймворк использует знания из внешних источников, таких как Медицинская База Знаний (Medical Knowledge Base, MKB), для дополнения знаний штатных моделей. ## Результаты Эксперименты проводились на трех различных медицинских бенчмарках. MedCoT-RAG показал существенное улучшение по сравнению с тремя группами конкурентов: (1) традиционными RAG-моделями, (2) RAG-моделями с дополнительным доменным адаптированием, и (3) штатными LLMs без RAG. Модель повысила точность от 6.4% до 10.3% в сравнении с базовыми моделями, в то же время улучшила интерпретируемость и консистентность результатов. Эти результаты продемонстрировали улучшение клинической точности и структурированности ответов, особенно в сложных сценариях, требующих глубокой клинической логики. ## Значимость Приложение MedCoT-RAG может быть применено в различных сферах, включая клиническую практику, самостоятельную диагностику и обучение. Оно предоставляет следующие преимущества: (1) улуч

Abstract

Large language models (LLMs) have shown promise in medical question answering but often struggle with hallucinations and shallow reasoning, particularly in tasks requiring nuanced clinical understanding. Retrieval-augmented generation (RAG) offers a practical and privacy-preserving way to enhance LLMs with external medical knowledge. However, most existing approaches rely on surface-level semantic retrieval and lack the structured reasoning needed for clinical decision support. We introduce MedCoT-RAG, a domain-specific framework that combines causal-aware document retrieval with structured chain-of-thought prompting tailored to medical workflows. This design enables models to retrieve evidence aligned with diagnostic logic and generate step-by-step causal reasoning reflective of real-world clinical practice. Experiments on three diverse medical QA benchmarks show that MedCoT-RAG outperforms strong baselines by up to 10.3% over vanilla RAG and 6.4% over advanced domain-adapted methods, improving accuracy, interpretability, and consistency in complex medical tasks.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

MedCoT-RAG: Causal Chain-of-Thought RAG for Medical Question Answering

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

MMAG: Mixed Memory-Augmented Generation for Large Language Models Applications

AR-Med: Automated Relevance Enhancement in Medical Search via LLM-Driven Informa...

Mitigating the Threshold Priming Effect in Large Language Model-Based Relevance ...

MMAG: Mixed Memory-Augmented Generation for Large Language Models Applications

Towards Unification of Hallucination Detection and Fact Verification for Large L...

Навигация