OraPO: Oracle-educated Reinforcement Learning for Data-efficient and Factual Radiology Report Generation
2509.18600v1
cs.CV, cs.AI, cs.CL
2025-09-25
Авторы:
Zhuoxiao Chen, Hongyang Yu, Ying Xu, Yadan Luo, Long Duong, Yuan-Fang Li
Резюме на русском
## Контекст
В поле радиологии, автоматизация процесса генерации клинически точных отчетов по городским рентген-снимкам (стопроцентная уверенность, что это верно) является ключевым вызовом. Несмотря на то, что предыдущие работы показали впечатляющие результаты, они часто требуют больших объемов данных и высокой вычислительной мощности, что ограничивает их применяемость в реальных клинических условиях. Особенно вызов является выделение сложных и редких случаев, которые требуют точности и глубокого понимания. Мы предлагаем новую подходка, OraPO, которая объединяет оркестрацию знаний оркестратора (Oracle) и факто-ориентированную награду (FactS) для обеспечения эффективной и точной генерации отчетов даже в сложных случаях.
## Метод
OraPO использует усовершенствованную архитектуру, которая объединяет процессы обучения глубокого обучения и генерации отчетов. Мы предлагаем FactScore (FactS), метод, который извлекает атомарные клинические факты из отчетов и проверяет на них подходящую интерпретацию. Основной этап обучения заключается в использовании отрицательных примеров (failed GRPO explorations), которые, вместо того чтобы быть отклонены, используются для создания награды, основанной на диагностических фактах. Это позволяет OraPO сфокусироваться на сложных случаях и улучшить стабильность обучения.
## Результаты
Мы провели эксперименты на датасете CheXpert Plus, сравнивая OraPO с традиционными подходами. Наши результаты показали, что OraPO достигает SOTA (State of the Art) в F1-меру (0.341), используя гораздо меньший объем данных и меньшую вычислительную мощь по сравнению с предыдущими методами. Также, мы проанализировали точность и скорость обучения, показав, что OraPO эффективно работает на редких и сложных случаях, даже с ограниченными вычислительными ресурсами.
## Значимость
OraPO открывает новые пути для эффективного и точного генерации отчетов в клинических случаях, особенно в тех, которые требуют высокой точности и сложности. Этот подход может быть применен в различных областях, где необходимо работать с ограниченными данными и высокой сложностью. Наши результаты показывают, что OraPO может существенно улучшить процессы в радиологии, имея потенциал для улучшения качества патологической диагностики.
## Выводы
Мы привносим OraPO в качестве нового стандарта для эффективного и точного генерации клинически точных отчетов в радиологии. Наш подход показывает существенные преимущества в обучении с ограниченными данными и на редких случаях. Будущие исследования будут сфокусированы на расширении метода OraPO для других областей в медицине и на предложении
Abstract
Radiology report generation (RRG) aims to automatically produce clinically
faithful reports from chest X-ray images. Prevailing work typically follows a
scale-driven paradigm, by multi-stage training over large paired corpora and
oversized backbones, making pipelines highly data- and compute-intensive. In
this paper, we propose Oracle-educated GRPO {OraPO) with a FactScore-based
reward (FactS) to tackle the RRG task under constrained budgets. OraPO enables
single-stage, RL-only training by converting failed GRPO explorations on rare
or difficult studies into direct preference supervision via a lightweight
oracle step. FactS grounds learning in diagnostic evidence by extracting atomic
clinical facts and checking entailment against ground-truth labels, yielding
dense, interpretable sentence-level rewards. Together, OraPO and FactS create a
compact and powerful framework that significantly improves learning efficiency
on clinically challenging cases, setting the new SOTA performance on the
CheXpert Plus dataset (0.341 in F1) with 2--3 orders of magnitude less training
data using a small base VLM on modest hardware.
Ссылки и действия
Дополнительные ресурсы: