Med-RewardBench: Benchmarking Reward Models and Judges for Medical Multimodal Large Language Models

2508.21430v1 cs.CL, cs.AI, cs.CV 2025-09-02
Авторы:

Meidan Ding, Jipeng Zhang, Wenxuan Wang, Cheng-Yi Li, Wei-Chieh Fang, Hsin-Yu Wu, Haiqin Zhong, Wenting Chen, Linlin Shen

Резюме на русском

## Контекст Многомодальные большие языковые модели (Multimodal Large Language Models, MLLMs) обладают большим потенциалом в области медицины, в том числе в диагностике заболеваний, клиническом принятии решений и оценке данных. Однако эти задачи требуют высокой точности, контекстуальной адекватности и профессиональной аллигации ответов. Это делает критически важным развитие эффективных моделей награды (Reward Models, MRMs) и критиков (Judges), которые могут адекватно оценивать выходные данные MLLMs в медицинских сценариях. Несмотря на их важность, MRMs и критики для медицины остаются недостаточно исследованы, и существуют лишь небольшие направления по оценке выходов MLLMs в таких областях, как клиническая точность и адекватность. Чтобы заполнить это промежуточное пространство, мы предлагаем Med-RewardBench — первый бенчмарк, специально разработанный для оценки MRMs и критиков в медицинских сценариях. ## Метод Med-RewardBench использует многомодальный датасет, охватывающий 13 органов и 8 клинических отделений, с 1026 касательно наблюдений, которые были экспертно проанализированы. Для обеспечения высокого качества этих данных для оценки, мы применяем трехшаговую процедуру: (1) сбор и описание данных; (2) синтезирование клинических сценариев; (3) выполнение критериев экспертной оценки. Методы классификации и оценки используются для реализации критериев критика в шести клинических аспектах: диагностическая точность, клиническая соответствия, лечимость, безопасность, эффективность и общий мотив. Мы оцениваем 32 современных MLLMs, включая открытые, проприетарные и медицинские модели, чтобы проверить их возможности в среде с клиническими задачами. Мы также разработали базовые модели, которые достигли значительных улучшений с помощью обучения. ## Результаты Наши эксперименты показали, что существуют значительные проблемы в совпадении выходов MLLMs с медицинскими критериями, особенно в области диагностической точности и клинической соответствия. Мы сравнили 32 моделей, включая стандартные, медицинские и открытые модели, и обнаружили, что многие из них сталкиваются с проблемами в точности выводов и клинической адекватности. Базовые модели, разработанные нами, показали значительные улучшения в производительности при использовании методов оптимизации и обучения. ## Значимость Med-RewardBench открывает новые возможности для оценки MLLMs в медицинских задачах, призванных решать проблемы в диагностике и клиническом принятии решений. Он предоставляет среду для проверки моделей на высокую точность, клиническую соответствию и профессиональную аллигацию ответов. Он также откры

Abstract

Multimodal large language models (MLLMs) hold significant potential in medical applications, including disease diagnosis and clinical decision-making. However, these tasks require highly accurate, context-sensitive, and professionally aligned responses, making reliable reward models and judges critical. Despite their importance, medical reward models (MRMs) and judges remain underexplored, with no dedicated benchmarks addressing clinical requirements. Existing benchmarks focus on general MLLM capabilities or evaluate models as solvers, neglecting essential evaluation dimensions like diagnostic accuracy and clinical relevance. To address this, we introduce Med-RewardBench, the first benchmark specifically designed to evaluate MRMs and judges in medical scenarios. Med-RewardBench features a multimodal dataset spanning 13 organ systems and 8 clinical departments, with 1,026 expert-annotated cases. A rigorous three-step process ensures high-quality evaluation data across six clinically critical dimensions. We evaluate 32 state-of-the-art MLLMs, including open-source, proprietary, and medical-specific models, revealing substantial challenges in aligning outputs with expert judgment. Additionally, we develop baseline models that demonstrate substantial performance improvements through fine-tuning.

Ссылки и действия