RadReason: Radiology Report Evaluation Metric with Reasons and Sub-Scores

2508.15464v1 cs.CL, cs.AI 2025-08-23

Авторы:

Yingshu Li, Yunyi Liu, Lingqiao Liu, Lei Wang, Luping Zhou

Резюме на русском

## Контекст Интерпретируемый, точный и быстрый оценивание текстовых данных, особенно в области медицины, является ключевым аспектом для широкого круга применений, включая диагностику и анализ медицинского содержимого. Однако, актуальной проблемой в этой области является несовершенство метрик, которые либо выдают общую оценку, либо основываются на непонятных для человека моделях. Более того, существующие метрики часто не могут достаточно точно оценивать комплексность и глубину анализа, что влечет недостаточность в решении задач в системах медицинского анализа. Наша мотивация заключается в разработке метрики, которая была бы обоснована клинически, ясна для пользователя и многомерна в своем подходе. ## Метод Мы предлагаем RadReason, новую метрику для оценки радиологических отчетов, которая отличается развитым клиническим обоснованием и точностью. Методология основывается на Group Relative Policy Optimization, что позволяет выделять точки ошибок и давать их подробные оценки. Метрика предоставляет шесть видов ошибок и дает подробные отчеты об их причинах. Она также включает в себя два ключевых элемента: (1) **Sub-score Dynamic Weighting**, который адаптирует оценки отдельных подмножеств ошибок в зависимости от их клинического значения, и (2) **Majority-Guided Advantage Scaling**, который учитывает сложность оценки в зависимости от степени согласия с реальными клиническими ответами. Эти компоненты обеспечивают более стабильный процесс оптимизации и лучшее соответствие клиническим стандартам. ## Результаты Мы провели эксперименты на бенчмарке ReXVal, сравнив RadReason с другими методами. Наши результаты показали, что RadReason превосходит существующие оффлайн-метрики и достигает оценочных результатов, приближенных к GPT-4-based моделям. Это достигается благодаря тому, что RadReason не только выдает точные результаты, но и обеспечивает передовой уровень читаемости и клинического значения. Эта метрика также демонстрирует высокую эффективность и позволяет делать клинические выводы без значительных затрат на вычислительные ресурсы. ## Значимость Метрика RadReason может применяться в разных медицинских областях, в том числе в радиологии, для точного оценивания автоматически сгенерированных отчетов. Она обеспечивает значительные преимущества перед существующими методами, в том числе: 1. Многомерная оценка с точным разбиением на ошибки. 2. Интерпретируемость результатов. 3. Эффективность в вычислениях и подходность для клинического применения. Это может положительно сказаться на качестве медицинского анализа и здоровье пациентов. ## Выводы RadReason продемонстрировала свою выдающуюся эффективность в медицинских приложениях, позволяя более точно и надежно оценива

Abstract

Evaluating automatically generated radiology reports remains a fundamental challenge due to the lack of clinically grounded, interpretable, and fine-grained metrics. Existing methods either produce coarse overall scores or rely on opaque black-box models, limiting their usefulness in real-world clinical workflows. We introduce RadReason, a novel evaluation framework for radiology reports that not only outputs fine-grained sub-scores across six clinically defined error types, but also produces human-readable justifications that explain the rationale behind each score. Our method builds on Group Relative Policy Optimization and incorporates two key innovations: (1) Sub-score Dynamic Weighting, which adaptively prioritizes clinically challenging error types based on live F1 statistics; and (2) Majority-Guided Advantage Scaling, which adjusts policy gradient updates based on prompt difficulty derived from sub-score agreement. Together, these components enable more stable optimization and better alignment with expert clinical judgment. Experiments on the ReXVal benchmark show that RadReason surpasses all prior offline metrics and achieves parity with GPT-4-based evaluations, while remaining explainable, cost-efficient, and suitable for clinical deployment. Code will be released upon publication.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

RadReason: Radiology Report Evaluation Metric with Reasons and Sub-Scores

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

UW-BioNLP at ChemoTimelines 2025: Thinking, Fine-Tuning, and Dictionary-Enhanced...

AdmTree: Compressing Lengthy Context with Adaptive Semantic Trees

SignRoundV2: Closing the Performance Gap in Extremely Low-Bit Post-Training Quan...

Mitigating Catastrophic Forgetting in Target Language Adaptation of LLMs via Sou...

SEAL: Self-Evolving Agentic Learning for Conversational Question Answering over ...

Навигация