PET2Rep: Towards Vision-Language Model-Drived Automated Radiology Report Generation for Positron Emission Tomography
2508.04062v1
eess.IV, cs.CV
2025-08-09
Авторы:
Yichi Zhang, Wenbo Zhang, Zehui Ling, Gang Feng, Sisi Peng, Deshu Chen, Yuchen Liu, Hongwei Zhang, Shuqi Wang, Lanlan Li, Limei Han, Yuan Cheng, Zixin Hu, Yuan Qi, Le Xue
Резюме на русском
**Резюме**
Positron emission tomography (PET) является важной методикой в онкологии и неврологии, позволяющей изучать метаболические процессы. Однако создание медицинских отчетов для PET-исследований вручную требует много времени и труда. В этой работе предлагается PET2Rep — первый бенчмарк, специально разработанный для оценки мощности визуально-языковых моделей (VLMs) в автоматизации генерации отчетов для PET-исследований. Он включает в себя сотни тысяч whole-body image-report pairs, охватывающих многие органы и чрезвычайно важные метаболические свойства. Мы сравнили 30 моделей, обнаружив, что даже лучшие VLMs сегодняшнего дня добиваются низкого качества в результатах, не соответствующем практическим потребностям. Основными проблемами, выявленными в исследовании, являются недостаточное понимание метаболического контента и ограниченность обучения моделей на реальных клинических данных. Наш эксперимент направлен на подчеркнуть необходимость развития специализированных моделей и дальнейшего исследования в этой области.
Abstract
Positron emission tomography (PET) is a cornerstone of modern oncologic and
neurologic imaging, distinguished by its unique ability to illuminate dynamic
metabolic processes that transcend the anatomical focus of traditional imaging
technologies. Radiology reports are essential for clinical decision making, yet
their manual creation is labor-intensive and time-consuming. Recent
advancements of vision-language models (VLMs) have shown strong potential in
medical applications, presenting a promising avenue for automating report
generation. However, existing applications of VLMs in the medical domain have
predominantly focused on structural imaging modalities, while the unique
characteristics of molecular PET imaging have largely been overlooked. To
bridge the gap, we introduce PET2Rep, a large-scale comprehensive benchmark for
evaluation of general and medical VLMs for radiology report generation for PET
images. PET2Rep stands out as the first dedicated dataset for PET report
generation with metabolic information, uniquely capturing whole-body
image-report pairs that cover dozens of organs to fill the critical gap in
existing benchmarks and mirror real-world clinical comprehensiveness. In
addition to widely recognized natural language generation metrics, we introduce
a series of clinical efficiency metrics to evaluate the quality of radiotracer
uptake pattern description in key organs in generated reports. We conduct a
head-to-head comparison of 30 cutting-edge general-purpose and
medical-specialized VLMs. The results show that the current state-of-the-art
VLMs perform poorly on PET report generation task, falling considerably short
of fulfilling practical needs. Moreover, we identify several key insufficiency
that need to be addressed to advance the development in medical applications.
Ссылки и действия
Дополнительные ресурсы: