PriorRG: Prior-Guided Contrastive Pre-training and Coarse-to-Fine Decoding for Chest X-ray Report Generation

2508.05353v1 cs.CV, cs.AI 2025-08-09

Авторы:

Kang Liu, Zhuoqi Ma, Zikang Fang, Yunan Li, Kun Xie, Qiguang Miao

Резюме на русском

## КОНТЕКСТ И ПРОБЛЕМАТИКА Генерация медицинских докладов на основе рентгеновских снимков грудной клетки (Chest X-ray Report Generation) является ключевой задачей в медицинском обработке изображений, направленной на сокращение рабочей нагрузки радиологов путем автоматического создания прелмининарных докладов. Эта задача требует не только точного анализа визуальных признаков снимков, но также учета пациентского контекста, такого как симптомы, медицинская история, а также данные из предыдущих обследований. Радиологи используют эту информацию для диагностического рассмотрения и оценки прогрессирования болезни. Тем не менее, большинство существующих методов фокусируются только на анализе отдельных изображений, игнорируя важную пациентскую информацию, что приводит к недостатку в диагностическом контексте и неполноте в отчетах. Существующие методы генерации докладов не учитывают динамику изменений в данных пациента, что может привести к неточностям в отчетах и отсутствию важного диагностического контекста. Это ограничение становится критичным, особенно когда необходимо отследить прогрессирование заболевания или изменения в состоянии пациента. Таким образом, необходимо разработать подход, который бы интегрировал пациентскую информацию в процесс генерации докладов, чтобы улучшить качество и точность полученных отчетов. Предлагаемый подход PriorRG предназначен для решения этой проблемы, внедряя пациентский контекст в процесс генерации докладов. Он использует предварительное обучение с учетом клинического контекста (prior-guided contrastive pre-training) и метод декодирования с учетом предыдущих данных (prior-aware coarse-to-fine decoding) для создания более точных и клинически соответствующих докладов. ## ПРЕДЛОЖЕННЫЙ МЕТОД PriorRG предлагает двухступенчатый подход к генерации докладов по рентгеновским снимкам грудной клетки. **Stage 1: Prior-Guided Contrastive Pre-training** В этом этапе предлагается метод предварительного обучения, который использует пациентский контекст для руководства процессом извлечения пространственно-временных признаков. Это позволяет модели лучше понимать семантические отношения в радиологических отчетах. Метод основывается на контрастивном обучении, где клинический контекст, такой как симптомы и медицинская история, используется для направления извлечения признаков, что позволяет модели лучше выравниваться с семантическими аспектами радиологических докладов. **Stage 2: Prior-Aware Coarse-to-Fine Decoding** На втором этапе предлагается метод декодирования, который постепенно интегрирует пациентскую информацию в процессе генерации докладов. Этот подход работает на основе предыдущих данных пациента, что позволяет модели выравниваться с диагностическим фокусом и отслеживать изменения в состоянии пациента. Декодирование осуществляется в несколько этапов, начиная с общего представления и продвигаясь к более детальному анализу, что повышает качество и точность генерируемых отчетов. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Эксперименты проводились на двух наборах данных: MIMIC-CXR и MIMIC-ABN. Результаты показали, что PriorRG превосходит современные методы по нескольким метрикам. На наборе данных MIMIC-CXR достигнут прирост в 3.6% по BLEU-4 и 3.8% по F1-мере, а на MIMIC-ABN — прирост в 5.9% по BLEU-1. Эти результаты демонстрируют значительное улучшение качества генерируемых докладов благодаря использованию пациентского контекста. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ PriorRG может быть применен в клинической практике для автоматизации генерации докладов по рентгеновским снимкам, что позволяет сократить нагрузку на радиологов. Преимущества этого подхода заключаются в более точном отражении диагностического контекста и отслеживании изменений в состоянии пациентов, что может повысить качество медицинского обслуживания. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ PriorRG является значительным шагом вперед в области генерации медицинских докладов, улучшая точность и клиническую значимость генерируемых отчетов. Будущие исследования могут фокусироваться на дальнейшем улучшении интеграции пациентского контекста и расширении применения этого подхода к другим областям медицинской диагностики.

Abstract

Chest X-ray report generation aims to reduce radiologists' workload by automatically producing high-quality preliminary reports. A critical yet underexplored aspect of this task is the effective use of patient-specific prior knowledge -- including clinical context (e.g., symptoms, medical history) and the most recent prior image -- which radiologists routinely rely on for diagnostic reasoning. Most existing methods generate reports from single images, neglecting this essential prior information and thus failing to capture diagnostic intent or disease progression. To bridge this gap, we propose PriorRG, a novel chest X-ray report generation framework that emulates real-world clinical workflows via a two-stage training pipeline. In Stage 1, we introduce a prior-guided contrastive pre-training scheme that leverages clinical context to guide spatiotemporal feature extraction, allowing the model to align more closely with the intrinsic spatiotemporal semantics in radiology reports. In Stage 2, we present a prior-aware coarse-to-fine decoding for report generation that progressively integrates patient-specific prior knowledge with the vision encoder's hidden states. This decoding allows the model to align with diagnostic focus and track disease progression, thereby enhancing the clinical accuracy and fluency of the generated reports. Extensive experiments on MIMIC-CXR and MIMIC-ABN datasets demonstrate that PriorRG outperforms state-of-the-art methods, achieving a 3.6% BLEU-4 and 3.8% F1 score improvement on MIMIC-CXR, and a 5.9% BLEU-1 gain on MIMIC-ABN. Code and checkpoints will be released upon acceptance.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

PriorRG: Prior-Guided Contrastive Pre-training and Coarse-to-Fine Decoding for Chest X-ray Report Generation

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Dual-Stream Spectral Decoupling Distillation for Remote Sensing Object Detection

Explainable Parkinsons Disease Gait Recognition Using Multimodal RGB-D Fusion an...

GuidNoise: Single-Pair Guided Diffusion for Generalized Noise Synthesis

PhyVLLM: Physics-Guided Video Language Model with Motion-Appearance Disentanglem...

Detection of Intoxicated Individuals from Facial Video Sequences via a Recurrent...

Навигация