ProMed: Shapley Information Gain Guided Reinforcement Learning for Proactive Medical LLMs
2508.13514v1
cs.CL, cs.AI
2025-08-21
Авторы:
Hongxin Ding, Baixiang Huang, Yue Fang, Weibin Liao, Xinke Jiang, Zheng Li, Junfeng Zhao, Yasha Wang
Резюме на русском
## Контекст
Интерактивность — ключевой аспект в реальном клиническом практиковании, где врачи активно собирают информацию у пациентов для точного диагноза. Медицинские Large Language Models (LLMs) доказали свою эффективность в реактивной модели, отвечая на вопросы без дополнительной информационной подготовки. Однако в реальных клинических ситуациях, где отсутствует полная информация, реактивная модель может привести к ошибочным выводам. Для перехода к проактивной модели, где модели могут спрашивать дополнительные вопросы для повышения точности, мы предлагаем ProMed — новую стратегию, основанную на reinforcement learning (RL). ProMed способствует переходу LLMs с реактивной модели к проактивной, где модели могут спрашивать пациентов и использовать эту информацию для более точных решений.
## Метод
ProMed основывается на Shapley Information Gain (SIG), методе, который оценивает важность каждого вопроса в контексте клинической информации. SIG вычисляется с помощью Shapley values, которые выражают значимость каждого вопроса в зависимости от его вклада в понимание ситуации. Мы предлагаем две стадии обучения: (1) SIG-Guided Model Initialization использует Monte Carlo Tree Search (MCTS) для построения высоко-ревардных траекторий взаимодействия, которые затем используются для начальной тренировки модели, и (2) SIG-Augmented Policy Optimization, где мы используем SIG для улучшения RL-политики, присваивая больший вес информативным вопросам. Это позволяет модели оптимизироваться направленно, сфокусировавшись на самых полезных вопросах.
## Результаты
Мы проводим эксперименты на двух новых корпусах частичной клинической информации. Наши результаты показывают, что ProMed значительно выдает лучшие результаты по сравнению с состоянием искусства, повышая точность на среднем уровне 6.29%. Более того, ProMed показывает выдающиеся результаты в переквалификации к другим областям, демонстрируя его универсальность и надёжность. Ключевой преимуществом является реализация проактивного подхода, где модель не только отвечает, но и активно ищет дополнительную информацию, что повышает свою эффективность в реальных клинических сценариях.
## Значимость
Помимо его прямого применения в клинической практике, ProMed может быть использован в других областях, где требуется проактивное взаимодействие с данными, таких как финансы, юриспруденция, и даже общие задачи взаимодействия с ЛЛМ. Этот подход предлагает значительные преимущества, включая повышение точности диагноза, эффективность в использовании информации, и универсальность, которая позволяет применять его в различных сферах. Мы считаем, что ProMed открывает новые горизонты в исследованиях по RL в медици
Abstract
Interactive medical questioning is essential in real-world clinical
consultations, where physicians must actively gather information from patients.
While medical Large Language Models (LLMs) have shown impressive capabilities
in static medical question answering, they predominantly operate under a
reactive paradigm: generating answers directly without seeking additional
information, which risks incorrect diagnoses in such interactive settings. To
address this limitation, we propose ProMed, a reinforcement learning (RL)
framework that transitions medical LLMs toward a proactive paradigm, equipping
them with the ability to ask clinically valuable questions before
decision-making. At the core of ProMed is the Shapley Information Gain (SIG)
reward, which quantifies the clinical utility of each question by combining the
amount of newly acquired information with its contextual importance, estimated
via Shapley values. We integrate SIG into a two-stage training pipeline: (1)
SIG-Guided Model Initialization uses Monte Carlo Tree Search (MCTS) to
construct high-reward interaction trajectories to supervise the model, and (2)
SIG-Augmented Policy Optimization, which integrates SIG and enhances RL with a
novel SIG-guided Reward Distribution Mechanism that assigns higher rewards to
informative questions for targeted optimization. Extensive experiments on two
newly curated partial-information medical benchmarks demonstrate that ProMed
significantly outperforms state-of-the-art methods by an average of 6.29% and
delivers a 54.45% gain over the reactive paradigm, while also generalizing
robustly to out-of-domain cases.
Ссылки и действия
Дополнительные ресурсы: