Med-RewardBench: Benchmarking Reward Models and Judges for Medical Multimodal Large Language Models
2508.21430v1
cs.CL, cs.AI, cs.CV
2025-09-02
Авторы:
Meidan Ding, Jipeng Zhang, Wenxuan Wang, Cheng-Yi Li, Wei-Chieh Fang, Hsin-Yu Wu, Haiqin Zhong, Wenting Chen, Linlin Shen
Резюме на русском
## Контекст
Многомодальные большие языковые модели (Multimodal Large Language Models, MLLMs) обладают большим потенциалом в области медицины, в том числе в диагностике заболеваний, клиническом принятии решений и оценке данных. Однако эти задачи требуют высокой точности, контекстуальной адекватности и профессиональной аллигации ответов. Это делает критически важным развитие эффективных моделей награды (Reward Models, MRMs) и критиков (Judges), которые могут адекватно оценивать выходные данные MLLMs в медицинских сценариях. Несмотря на их важность, MRMs и критики для медицины остаются недостаточно исследованы, и существуют лишь небольшие направления по оценке выходов MLLMs в таких областях, как клиническая точность и адекватность. Чтобы заполнить это промежуточное пространство, мы предлагаем Med-RewardBench — первый бенчмарк, специально разработанный для оценки MRMs и критиков в медицинских сценариях.
## Метод
Med-RewardBench использует многомодальный датасет, охватывающий 13 органов и 8 клинических отделений, с 1026 касательно наблюдений, которые были экспертно проанализированы. Для обеспечения высокого качества этих данных для оценки, мы применяем трехшаговую процедуру: (1) сбор и описание данных; (2) синтезирование клинических сценариев; (3) выполнение критериев экспертной оценки. Методы классификации и оценки используются для реализации критериев критика в шести клинических аспектах: диагностическая точность, клиническая соответствия, лечимость, безопасность, эффективность и общий мотив. Мы оцениваем 32 современных MLLMs, включая открытые, проприетарные и медицинские модели, чтобы проверить их возможности в среде с клиническими задачами. Мы также разработали базовые модели, которые достигли значительных улучшений с помощью обучения.
## Результаты
Наши эксперименты показали, что существуют значительные проблемы в совпадении выходов MLLMs с медицинскими критериями, особенно в области диагностической точности и клинической соответствия. Мы сравнили 32 моделей, включая стандартные, медицинские и открытые модели, и обнаружили, что многие из них сталкиваются с проблемами в точности выводов и клинической адекватности. Базовые модели, разработанные нами, показали значительные улучшения в производительности при использовании методов оптимизации и обучения.
## Значимость
Med-RewardBench открывает новые возможности для оценки MLLMs в медицинских задачах, призванных решать проблемы в диагностике и клиническом принятии решений. Он предоставляет среду для проверки моделей на высокую точность, клиническую соответствию и профессиональную аллигацию ответов. Он также откры
Abstract
Multimodal large language models (MLLMs) hold significant potential in
medical applications, including disease diagnosis and clinical decision-making.
However, these tasks require highly accurate, context-sensitive, and
professionally aligned responses, making reliable reward models and judges
critical. Despite their importance, medical reward models (MRMs) and judges
remain underexplored, with no dedicated benchmarks addressing clinical
requirements. Existing benchmarks focus on general MLLM capabilities or
evaluate models as solvers, neglecting essential evaluation dimensions like
diagnostic accuracy and clinical relevance. To address this, we introduce
Med-RewardBench, the first benchmark specifically designed to evaluate MRMs and
judges in medical scenarios. Med-RewardBench features a multimodal dataset
spanning 13 organ systems and 8 clinical departments, with 1,026
expert-annotated cases. A rigorous three-step process ensures high-quality
evaluation data across six clinically critical dimensions. We evaluate 32
state-of-the-art MLLMs, including open-source, proprietary, and
medical-specific models, revealing substantial challenges in aligning outputs
with expert judgment. Additionally, we develop baseline models that demonstrate
substantial performance improvements through fine-tuning.
Ссылки и действия
Дополнительные ресурсы: