MedReasoner: Reinforcement Learning Drives Reasoning Grounding from Clinical Thought to Pixel-Level Precision

2508.08177v1 cs.CV, cs.AI 2025-08-13
Авторы:

Zhonghao Yan, Muxi Diao, Yuxuan Yang, Jiayuan Xu, Kaizhou Zhang, Ruoyan Jing, Lele Yang, Yanxi Liu, Kongming Liang, Zhanyu Ma

Резюме на русском

#################### ## Контекст #################### В сфере медицинских изображений критически важно точно определять области интереса (ROIs) для правильной диагностики и разработки режимов лечения. Такие задачи, как предсказание и разметка областей, часто требуют не только визуального понимания, но и клинической рассуждения. Несмотря на то, что модели типа multimodal large language models (MLLMs) объединяют визуальное восприятие с естественным языком, существующие пипелйны граундинга в медицине базируются на супервизорном оптимизации с использованием явных спатиальных подсказок. Это делает их неэффективными для решения задач, где запросы явным образом не являются частью входных данных, что широко распространено в клинической практике. Целью настоящего исследования является развитие новых подходов к граундингу, ориентированных на интеллектуальное зрелище и клинические рассуждения, чтобы улучшить точность и точность при работе с неявными запросами. #################### ## Метод #################### Мы предлагаем новую методологию, основанную на reinforcement learning (RL), чтобы обеспечить клинический граундинг с пиксельной точностью. Наша модель, MedReasoner, состоит из двух модулей: 1. **Reasoner (RL-оптимизированный модуль):** Это модель, основанная на многомодальных больших языковых моделях (MLLM), которая обрабатывает неявные запросы клинического знания, сформированные в виде текста. 2. **Segmenter (модуль с пиксельной точностью):** Это предобученная модель, которая преобразует текстовые запросы в пиксельные маски с помощью явных подсказок. MedReasoner использует формат ввода-вывода, который отделяет логику принятия решений от фактической разметки. Результаты этих модулей оцениваются с помощью форматированных наград, чтобы обеспечить согласованность между ними. Эта архитектура позволяет MedReasoner быть эффективной в обработке запросов, где контекст и специфичные требования клинического знания являются ключевыми. #################### ## Результаты #################### Мы оценили MedReasoner на датасете U-MRG-14K, состоящем из 14 тысяч примеров, включающих пиксельные маски, неявные клинические запросы и специфичные модальности визуальных данных. Наши эксперименты показали, что MedReasoner существенно превосходит другие подходы в зоне граундинга в медицине, особенно в сфере неявных запросов. Модель достигла state-of-the-art результатов в предсказании пиксельных масок, превосходя соревнователей по метрикам accuracy и F1-score. Более того, MedReasoner продемонстрировал высокую универсальность, успешно обрабатывая нестандартные клинические запросы, что указывает на сильную общеприменимость и интерактивность модели в клиничес

Abstract

Accurately grounding regions of interest (ROIs) is critical for diagnosis and treatment planning in medical imaging. While multimodal large language models (MLLMs) combine visual perception with natural language, current medical-grounding pipelines still rely on supervised fine-tuning with explicit spatial hints, making them ill-equipped to handle the implicit queries common in clinical practice. This work makes three core contributions. We first define Unified Medical Reasoning Grounding (UMRG), a novel vision-language task that demands clinical reasoning and pixel-level grounding. Second, we release U-MRG-14K, a dataset of 14K samples featuring pixel-level masks alongside implicit clinical queries and reasoning traces, spanning 10 modalities, 15 super-categories, and 108 specific categories. Finally, we introduce MedReasoner, a modular framework that distinctly separates reasoning from segmentation: an MLLM reasoner is optimized with reinforcement learning, while a frozen segmentation expert converts spatial prompts into masks, with alignment achieved through format and accuracy rewards. MedReasoner achieves state-of-the-art performance on U-MRG-14K and demonstrates strong generalization to unseen clinical queries, underscoring the significant promise of reinforcement learning for interpretable medical grounding.

Ссылки и действия