Fleming-R1: Toward Expert-Level Medical Reasoning via Reinforcement Learning
2509.15279v1
cs.LG, cs.CL
2025-09-23
Авторы:
Chi Liu, Derek Li, Yan Shu, Robin Chen, Derek Duan, Teng Fang, Bryan Dai
Резюме на русском
#### Контекст
Область применения ИИ в медицине набирает обороты, но достижение экспертного уровня клинического разума остается вызовом. Обычно, л LLM могут обеспечить точные ответы, но часто не предоставляют транспарентных выводов, необходимых для проверки и надежности. Это недостаток становится критическим в высокорисковых сферах, где необходимо не только правильность ответов, но и прозрачность логики. Fleming-R1 разработан как решение этой проблемы, стремясь к экспертному клиническому разуму с помощью трех основных инноваций.
#### Метод
Fleming-R1 использует три основных техники. **Reasoning-Oriented Data Strategy (RODS)** проводит синтез данных с использованием знаний из графов и куратируемых медицинских обучающих данных, чтобы улучшить покрытие на проблемы, относящиеся к редким болезням, лекарству и многоходовым выводам. **Chain-of-Thought (CoT) cold start** делает использование готовых выводов методом Knowledge Distillation от моделей-учителей, чтобы установить нормы для разума. **Two-stage Reinforcement Learning from Verifiable Rewards (RLVR)**, включая Group Relative Policy Optimization, нацелен на поддержание основных клинических логических умений и устранение постоянных недостатков через адаптивное добавление сложных примеров.
#### Результаты
Эксперименты показали, что Fleming-R1 демонстрирует выдающиеся результаты по сравнению с базовыми моделями. Версия 7B Fleming-R1 превзошла модели большего размера на нескольких медицинских задачах, в то время как 32B модель достигла сопоставимого уровня с GPT-4o и постоянно превосходила открытые аналоги. Эти результаты показывают, что структурированные подходы к данным, начальная инициализация для разума и учетная логика могут быть послужить основой для получения экспертного клинического разума, превосходящего простую точность.
#### Значимость
Fleming-R1 может применяться в различных областях, в том числе диагностике, клинической терапии и медицинском анализе. Он предоставляет повышенную прозрачность и надежность, что может повысить безопасность при использовании в клинических средах. Это демонстрирует перспективу ИИ в медицине, где надежность и прозрачность критически важны.
#### Выводы
Результаты Fleming-R1 свидетельствуют о значимости структурированных подходов к обучению, начальной инициализации для разума и логических методов доказательства. Будущие исследования будут направлены на улучшение моделей клинического разума, увеличение прозрачности и эффективности, а также расширение применения в реальных клинических ситуациях.
Abstract
While large language models show promise in medical applications, achieving
expert-level clinical reasoning remains challenging due to the need for both
accurate answers and transparent reasoning processes. To address this
challenge, we introduce Fleming-R1, a model designed for verifiable medical
reasoning through three complementary innovations. First, our
Reasoning-Oriented Data Strategy (RODS) combines curated medical QA datasets
with knowledge-graph-guided synthesis to improve coverage of underrepresented
diseases, drugs, and multi-hop reasoning chains. Second, we employ
Chain-of-Thought (CoT) cold start to distill high-quality reasoning
trajectories from teacher models, establishing robust inference priors. Third,
we implement a two-stage Reinforcement Learning from Verifiable Rewards (RLVR)
framework using Group Relative Policy Optimization, which consolidates core
reasoning skills while targeting persistent failure modes through adaptive
hard-sample mining. Across diverse medical benchmarks, Fleming-R1 delivers
substantial parameter-efficient improvements: the 7B variant surpasses much
larger baselines, while the 32B model achieves near-parity with GPT-4o and
consistently outperforms strong open-source alternatives. These results
demonstrate that structured data design, reasoning-oriented initialization, and
verifiable reinforcement learning can advance clinical reasoning beyond simple
accuracy optimization. We release Fleming-R1 publicly to promote transparent,
reproducible, and auditable progress in medical AI, enabling safer deployment
in high-stakes clinical environments.
Ссылки и действия
Дополнительные ресурсы: