R2GenKG: Hierarchical Multi-modal Knowledge Graph for LLM-based Radiology Report Generation
2508.03426v1
cs.CV, cs.AI, cs.LG
2025-08-06
Авторы:
Futian Wang, Yuhan Qiao, Xiao Wang, Fuling Wang, Yuxiang Zhang, Dengdi Sun
Резюме на русском
**Резюме:**
Генерация медицинских отчётов на основе рентгеновских изображений является важной задачей в применении искусственного интеллекта в медицине. Однако существующие методы страдают от проблем, таких как генерация недостоверной информации (hallucination) и ограниченные способности к диагностике заболеваний. В этой работе авторы предлагают R2GenKG — иерархический многомодальный знаний граф (M3KG), построенный на основе данных медицинских отчётов с помощью GPT-4. Граф содержит 2477 сущностей, три типа отношений, 37 424 тройки и 6943 диагностически ориентированных визуальных токенов для датасета CheXpert Plus.
Для извлечения визуальных признаков используется Swin-Transformer, который взаимодействует с графом через кросс-атенцию. Для генерации текста применяется большой языковой модель, которая отображает знания графа, визуальные признаки и диагностические токены в естественный язык. Результаты экспериментов на различных датасетах подтверждают высокую эффективность предложенного подхода в улучшении качества генерации отчётов и диагностики заболеваний.
Abstract
X-ray medical report generation is one of the important applications of
artificial intelligence in healthcare. With the support of large foundation
models, the quality of medical report generation has significantly improved.
However, challenges such as hallucination and weak disease diagnostic
capability still persist. In this paper, we first construct a large-scale
multi-modal medical knowledge graph (termed M3KG) based on the ground truth
medical report using the GPT-4o. It contains 2477 entities, 3 kinds of
relations, 37424 triples, and 6943 disease-aware vision tokens for the CheXpert
Plus dataset. Then, we sample it to obtain multi-granularity semantic graphs
and use an R-GCN encoder for feature extraction. For the input X-ray image, we
adopt the Swin-Transformer to extract the vision features and interact with the
knowledge using cross-attention. The vision tokens are fed into a Q-former and
retrieved the disease-aware vision tokens using another cross-attention.
Finally, we adopt the large language model to map the semantic knowledge graph,
input X-ray image, and disease-aware vision tokens into language descriptions.
Extensive experiments on multiple datasets fully validated the effectiveness of
our proposed knowledge graph and X-ray report generation framework. The source
code of this paper will be released on
https://github.com/Event-AHU/Medical_Image_Analysis.
Ссылки и действия
Дополнительные ресурсы: