RadReason: Radiology Report Evaluation Metric with Reasons and Sub-Scores
2508.15464v1
cs.CL, cs.AI
2025-08-23
Авторы:
Yingshu Li, Yunyi Liu, Lingqiao Liu, Lei Wang, Luping Zhou
Резюме на русском
## Контекст
Интерпретируемый, точный и быстрый оценивание текстовых данных, особенно в области медицины, является ключевым аспектом для широкого круга применений, включая диагностику и анализ медицинского содержимого. Однако, актуальной проблемой в этой области является несовершенство метрик, которые либо выдают общую оценку, либо основываются на непонятных для человека моделях. Более того, существующие метрики часто не могут достаточно точно оценивать комплексность и глубину анализа, что влечет недостаточность в решении задач в системах медицинского анализа. Наша мотивация заключается в разработке метрики, которая была бы обоснована клинически, ясна для пользователя и многомерна в своем подходе.
## Метод
Мы предлагаем RadReason, новую метрику для оценки радиологических отчетов, которая отличается развитым клиническим обоснованием и точностью. Методология основывается на Group Relative Policy Optimization, что позволяет выделять точки ошибок и давать их подробные оценки. Метрика предоставляет шесть видов ошибок и дает подробные отчеты об их причинах. Она также включает в себя два ключевых элемента: (1) **Sub-score Dynamic Weighting**, который адаптирует оценки отдельных подмножеств ошибок в зависимости от их клинического значения, и (2) **Majority-Guided Advantage Scaling**, который учитывает сложность оценки в зависимости от степени согласия с реальными клиническими ответами. Эти компоненты обеспечивают более стабильный процесс оптимизации и лучшее соответствие клиническим стандартам.
## Результаты
Мы провели эксперименты на бенчмарке ReXVal, сравнив RadReason с другими методами. Наши результаты показали, что RadReason превосходит существующие оффлайн-метрики и достигает оценочных результатов, приближенных к GPT-4-based моделям. Это достигается благодаря тому, что RadReason не только выдает точные результаты, но и обеспечивает передовой уровень читаемости и клинического значения. Эта метрика также демонстрирует высокую эффективность и позволяет делать клинические выводы без значительных затрат на вычислительные ресурсы.
## Значимость
Метрика RadReason может применяться в разных медицинских областях, в том числе в радиологии, для точного оценивания автоматически сгенерированных отчетов. Она обеспечивает значительные преимущества перед существующими методами, в том числе:
1. Многомерная оценка с точным разбиением на ошибки.
2. Интерпретируемость результатов.
3. Эффективность в вычислениях и подходность для клинического применения.
Это может положительно сказаться на качестве медицинского анализа и здоровье пациентов.
## Выводы
RadReason продемонстрировала свою выдающуюся эффективность в медицинских приложениях, позволяя более точно и надежно оценива
Abstract
Evaluating automatically generated radiology reports remains a fundamental
challenge due to the lack of clinically grounded, interpretable, and
fine-grained metrics. Existing methods either produce coarse overall scores or
rely on opaque black-box models, limiting their usefulness in real-world
clinical workflows. We introduce RadReason, a novel evaluation framework for
radiology reports that not only outputs fine-grained sub-scores across six
clinically defined error types, but also produces human-readable justifications
that explain the rationale behind each score. Our method builds on Group
Relative Policy Optimization and incorporates two key innovations: (1)
Sub-score Dynamic Weighting, which adaptively prioritizes clinically
challenging error types based on live F1 statistics; and (2) Majority-Guided
Advantage Scaling, which adjusts policy gradient updates based on prompt
difficulty derived from sub-score agreement. Together, these components enable
more stable optimization and better alignment with expert clinical judgment.
Experiments on the ReXVal benchmark show that RadReason surpasses all prior
offline metrics and achieves parity with GPT-4-based evaluations, while
remaining explainable, cost-efficient, and suitable for clinical deployment.
Code will be released upon publication.
Ссылки и действия
Дополнительные ресурсы: