Fleming-R1: Toward Expert-Level Medical Reasoning via Reinforcement Learning

2509.15279v1 cs.LG, cs.CL 2025-09-23
Авторы:

Chi Liu, Derek Li, Yan Shu, Robin Chen, Derek Duan, Teng Fang, Bryan Dai

Резюме на русском

#### Контекст Область применения ИИ в медицине набирает обороты, но достижение экспертного уровня клинического разума остается вызовом. Обычно, л LLM могут обеспечить точные ответы, но часто не предоставляют транспарентных выводов, необходимых для проверки и надежности. Это недостаток становится критическим в высокорисковых сферах, где необходимо не только правильность ответов, но и прозрачность логики. Fleming-R1 разработан как решение этой проблемы, стремясь к экспертному клиническому разуму с помощью трех основных инноваций. #### Метод Fleming-R1 использует три основных техники. **Reasoning-Oriented Data Strategy (RODS)** проводит синтез данных с использованием знаний из графов и куратируемых медицинских обучающих данных, чтобы улучшить покрытие на проблемы, относящиеся к редким болезням, лекарству и многоходовым выводам. **Chain-of-Thought (CoT) cold start** делает использование готовых выводов методом Knowledge Distillation от моделей-учителей, чтобы установить нормы для разума. **Two-stage Reinforcement Learning from Verifiable Rewards (RLVR)**, включая Group Relative Policy Optimization, нацелен на поддержание основных клинических логических умений и устранение постоянных недостатков через адаптивное добавление сложных примеров. #### Результаты Эксперименты показали, что Fleming-R1 демонстрирует выдающиеся результаты по сравнению с базовыми моделями. Версия 7B Fleming-R1 превзошла модели большего размера на нескольких медицинских задачах, в то время как 32B модель достигла сопоставимого уровня с GPT-4o и постоянно превосходила открытые аналоги. Эти результаты показывают, что структурированные подходы к данным, начальная инициализация для разума и учетная логика могут быть послужить основой для получения экспертного клинического разума, превосходящего простую точность. #### Значимость Fleming-R1 может применяться в различных областях, в том числе диагностике, клинической терапии и медицинском анализе. Он предоставляет повышенную прозрачность и надежность, что может повысить безопасность при использовании в клинических средах. Это демонстрирует перспективу ИИ в медицине, где надежность и прозрачность критически важны. #### Выводы Результаты Fleming-R1 свидетельствуют о значимости структурированных подходов к обучению, начальной инициализации для разума и логических методов доказательства. Будущие исследования будут направлены на улучшение моделей клинического разума, увеличение прозрачности и эффективности, а также расширение применения в реальных клинических ситуациях.

Abstract

While large language models show promise in medical applications, achieving expert-level clinical reasoning remains challenging due to the need for both accurate answers and transparent reasoning processes. To address this challenge, we introduce Fleming-R1, a model designed for verifiable medical reasoning through three complementary innovations. First, our Reasoning-Oriented Data Strategy (RODS) combines curated medical QA datasets with knowledge-graph-guided synthesis to improve coverage of underrepresented diseases, drugs, and multi-hop reasoning chains. Second, we employ Chain-of-Thought (CoT) cold start to distill high-quality reasoning trajectories from teacher models, establishing robust inference priors. Third, we implement a two-stage Reinforcement Learning from Verifiable Rewards (RLVR) framework using Group Relative Policy Optimization, which consolidates core reasoning skills while targeting persistent failure modes through adaptive hard-sample mining. Across diverse medical benchmarks, Fleming-R1 delivers substantial parameter-efficient improvements: the 7B variant surpasses much larger baselines, while the 32B model achieves near-parity with GPT-4o and consistently outperforms strong open-source alternatives. These results demonstrate that structured data design, reasoning-oriented initialization, and verifiable reinforcement learning can advance clinical reasoning beyond simple accuracy optimization. We release Fleming-R1 publicly to promote transparent, reproducible, and auditable progress in medical AI, enabling safer deployment in high-stakes clinical environments.

Ссылки и действия