ProMed: Shapley Information Gain Guided Reinforcement Learning for Proactive Medical LLMs

2508.13514v1 cs.CL, cs.AI 2025-08-21

Авторы:

Hongxin Ding, Baixiang Huang, Yue Fang, Weibin Liao, Xinke Jiang, Zheng Li, Junfeng Zhao, Yasha Wang

Резюме на русском

## Контекст Интерактивность — ключевой аспект в реальном клиническом практиковании, где врачи активно собирают информацию у пациентов для точного диагноза. Медицинские Large Language Models (LLMs) доказали свою эффективность в реактивной модели, отвечая на вопросы без дополнительной информационной подготовки. Однако в реальных клинических ситуациях, где отсутствует полная информация, реактивная модель может привести к ошибочным выводам. Для перехода к проактивной модели, где модели могут спрашивать дополнительные вопросы для повышения точности, мы предлагаем ProMed — новую стратегию, основанную на reinforcement learning (RL). ProMed способствует переходу LLMs с реактивной модели к проактивной, где модели могут спрашивать пациентов и использовать эту информацию для более точных решений. ## Метод ProMed основывается на Shapley Information Gain (SIG), методе, который оценивает важность каждого вопроса в контексте клинической информации. SIG вычисляется с помощью Shapley values, которые выражают значимость каждого вопроса в зависимости от его вклада в понимание ситуации. Мы предлагаем две стадии обучения: (1) SIG-Guided Model Initialization использует Monte Carlo Tree Search (MCTS) для построения высоко-ревардных траекторий взаимодействия, которые затем используются для начальной тренировки модели, и (2) SIG-Augmented Policy Optimization, где мы используем SIG для улучшения RL-политики, присваивая больший вес информативным вопросам. Это позволяет модели оптимизироваться направленно, сфокусировавшись на самых полезных вопросах. ## Результаты Мы проводим эксперименты на двух новых корпусах частичной клинической информации. Наши результаты показывают, что ProMed значительно выдает лучшие результаты по сравнению с состоянием искусства, повышая точность на среднем уровне 6.29%. Более того, ProMed показывает выдающиеся результаты в переквалификации к другим областям, демонстрируя его универсальность и надёжность. Ключевой преимуществом является реализация проактивного подхода, где модель не только отвечает, но и активно ищет дополнительную информацию, что повышает свою эффективность в реальных клинических сценариях. ## Значимость Помимо его прямого применения в клинической практике, ProMed может быть использован в других областях, где требуется проактивное взаимодействие с данными, таких как финансы, юриспруденция, и даже общие задачи взаимодействия с ЛЛМ. Этот подход предлагает значительные преимущества, включая повышение точности диагноза, эффективность в использовании информации, и универсальность, которая позволяет применять его в различных сферах. Мы считаем, что ProMed открывает новые горизонты в исследованиях по RL в медици

Abstract

Interactive medical questioning is essential in real-world clinical consultations, where physicians must actively gather information from patients. While medical Large Language Models (LLMs) have shown impressive capabilities in static medical question answering, they predominantly operate under a reactive paradigm: generating answers directly without seeking additional information, which risks incorrect diagnoses in such interactive settings. To address this limitation, we propose ProMed, a reinforcement learning (RL) framework that transitions medical LLMs toward a proactive paradigm, equipping them with the ability to ask clinically valuable questions before decision-making. At the core of ProMed is the Shapley Information Gain (SIG) reward, which quantifies the clinical utility of each question by combining the amount of newly acquired information with its contextual importance, estimated via Shapley values. We integrate SIG into a two-stage training pipeline: (1) SIG-Guided Model Initialization uses Monte Carlo Tree Search (MCTS) to construct high-reward interaction trajectories to supervise the model, and (2) SIG-Augmented Policy Optimization, which integrates SIG and enhances RL with a novel SIG-guided Reward Distribution Mechanism that assigns higher rewards to informative questions for targeted optimization. Extensive experiments on two newly curated partial-information medical benchmarks demonstrate that ProMed significantly outperforms state-of-the-art methods by an average of 6.29% and delivers a 54.45% gain over the reactive paradigm, while also generalizing robustly to out-of-domain cases.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

ProMed: Shapley Information Gain Guided Reinforcement Learning for Proactive Medical LLMs

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

UW-BioNLP at ChemoTimelines 2025: Thinking, Fine-Tuning, and Dictionary-Enhanced...

AdmTree: Compressing Lengthy Context with Adaptive Semantic Trees

SignRoundV2: Closing the Performance Gap in Extremely Low-Bit Post-Training Quan...

Mitigating Catastrophic Forgetting in Target Language Adaptation of LLMs via Sou...

SEAL: Self-Evolving Agentic Learning for Conversational Question Answering over ...

Навигация