PriorRG: Prior-Guided Contrastive Pre-training and Coarse-to-Fine Decoding for Chest X-ray Report Generation
2508.05353v1
cs.CV, cs.AI
2025-08-09
Авторы:
Kang Liu, Zhuoqi Ma, Zikang Fang, Yunan Li, Kun Xie, Qiguang Miao
Резюме на русском
## КОНТЕКСТ И ПРОБЛЕМАТИКА
Генерация медицинских докладов на основе рентгеновских снимков грудной клетки (Chest X-ray Report Generation) является ключевой задачей в медицинском обработке изображений, направленной на сокращение рабочей нагрузки радиологов путем автоматического создания прелмининарных докладов. Эта задача требует не только точного анализа визуальных признаков снимков, но также учета пациентского контекста, такого как симптомы, медицинская история, а также данные из предыдущих обследований. Радиологи используют эту информацию для диагностического рассмотрения и оценки прогрессирования болезни. Тем не менее, большинство существующих методов фокусируются только на анализе отдельных изображений, игнорируя важную пациентскую информацию, что приводит к недостатку в диагностическом контексте и неполноте в отчетах.
Существующие методы генерации докладов не учитывают динамику изменений в данных пациента, что может привести к неточностям в отчетах и отсутствию важного диагностического контекста. Это ограничение становится критичным, особенно когда необходимо отследить прогрессирование заболевания или изменения в состоянии пациента. Таким образом, необходимо разработать подход, который бы интегрировал пациентскую информацию в процесс генерации докладов, чтобы улучшить качество и точность полученных отчетов.
Предлагаемый подход PriorRG предназначен для решения этой проблемы, внедряя пациентский контекст в процесс генерации докладов. Он использует предварительное обучение с учетом клинического контекста (prior-guided contrastive pre-training) и метод декодирования с учетом предыдущих данных (prior-aware coarse-to-fine decoding) для создания более точных и клинически соответствующих докладов.
## ПРЕДЛОЖЕННЫЙ МЕТОД
PriorRG предлагает двухступенчатый подход к генерации докладов по рентгеновским снимкам грудной клетки.
**Stage 1: Prior-Guided Contrastive Pre-training**
В этом этапе предлагается метод предварительного обучения, который использует пациентский контекст для руководства процессом извлечения пространственно-временных признаков. Это позволяет модели лучше понимать семантические отношения в радиологических отчетах. Метод основывается на контрастивном обучении, где клинический контекст, такой как симптомы и медицинская история, используется для направления извлечения признаков, что позволяет модели лучше выравниваться с семантическими аспектами радиологических докладов.
**Stage 2: Prior-Aware Coarse-to-Fine Decoding**
На втором этапе предлагается метод декодирования, который постепенно интегрирует пациентскую информацию в процессе генерации докладов. Этот подход работает на основе предыдущих данных пациента, что позволяет модели выравниваться с диагностическим фокусом и отслеживать изменения в состоянии пациента. Декодирование осуществляется в несколько этапов, начиная с общего представления и продвигаясь к более детальному анализу, что повышает качество и точность генерируемых отчетов.
## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ
Эксперименты проводились на двух наборах данных: MIMIC-CXR и MIMIC-ABN. Результаты показали, что PriorRG превосходит современные методы по нескольким метрикам. На наборе данных MIMIC-CXR достигнут прирост в 3.6% по BLEU-4 и 3.8% по F1-мере, а на MIMIC-ABN — прирост в 5.9% по BLEU-1. Эти результаты демонстрируют значительное улучшение качества генерируемых докладов благодаря использованию пациентского контекста.
## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ
PriorRG может быть применен в клинической практике для автоматизации генерации докладов по рентгеновским снимкам, что позволяет сократить нагрузку на радиологов. Преимущества этого подхода заключаются в более точном отражении диагностического контекста и отслеживании изменений в состоянии пациентов, что может повысить качество медицинского обслуживания.
## ВЫВОДЫ И ПЕРСПЕКТИВЫ
PriorRG является значительным шагом вперед в области генерации медицинских докладов, улучшая точность и клиническую значимость генерируемых отчетов. Будущие исследования могут фокусироваться на дальнейшем улучшении интеграции пациентского контекста и расширении применения этого подхода к другим областям медицинской диагностики.
Abstract
Chest X-ray report generation aims to reduce radiologists' workload by
automatically producing high-quality preliminary reports. A critical yet
underexplored aspect of this task is the effective use of patient-specific
prior knowledge -- including clinical context (e.g., symptoms, medical history)
and the most recent prior image -- which radiologists routinely rely on for
diagnostic reasoning. Most existing methods generate reports from single
images, neglecting this essential prior information and thus failing to capture
diagnostic intent or disease progression. To bridge this gap, we propose
PriorRG, a novel chest X-ray report generation framework that emulates
real-world clinical workflows via a two-stage training pipeline. In Stage 1, we
introduce a prior-guided contrastive pre-training scheme that leverages
clinical context to guide spatiotemporal feature extraction, allowing the model
to align more closely with the intrinsic spatiotemporal semantics in radiology
reports. In Stage 2, we present a prior-aware coarse-to-fine decoding for
report generation that progressively integrates patient-specific prior
knowledge with the vision encoder's hidden states. This decoding allows the
model to align with diagnostic focus and track disease progression, thereby
enhancing the clinical accuracy and fluency of the generated reports. Extensive
experiments on MIMIC-CXR and MIMIC-ABN datasets demonstrate that PriorRG
outperforms state-of-the-art methods, achieving a 3.6% BLEU-4 and 3.8% F1 score
improvement on MIMIC-CXR, and a 5.9% BLEU-1 gain on MIMIC-ABN. Code and
checkpoints will be released upon acceptance.
Ссылки и действия
Дополнительные ресурсы: