A Disease-Centric Vision-Language Foundation Model for Precision Oncology in Kidney Cancer
2508.16569v1
eess.IV, cs.AI, cs.CV
2025-08-26
Авторы:
Yuhui Tao, Zhongwei Zhao, Zilong Wang, Xufang Luo, Feng Chen, Kang Wang, Chuanfu Wu, Xue Zhang, Shaoting Zhang, Jiaxi Yao, Xingwei Jin, Xinyang Jiang, Yifan Yang, Dongsheng Li, Lili Qiu, Zhiqiang Shao, Jianming Guo, Nengwang Yu, Shuo Wang, Ying Xiong
Резюме на русском
#### Контекст
Оценка неоперируемых почечных масс, обнаруживаемых случайно, является ключевым вызовом в урологической онкологии. Частота доброинвазивных или индолентных опухолей приводит к частым оперированиям, необходимости дополнительных исследований и ненужным нагрузке на здравоохранение. Недостаток в эффективных инструментах для характеристики и прогнозирования почечных опухолей способствует перебору в лечении. В этом исследовании разработана и протестирована RenalCLIP — многозадачная визуально-языковая фундаментальная модель для характеристики, диагностики и прогноза почечных опухолей. Модель ставит задачу улучшить диагностическую точность и прогностическую стратификацию, а также обеспечить более персонализированное лечение больных почечными опухолями.
#### Метод
RenalCLIP была разработана с использованием двухэтапной стратегии предварительного обучения. В первом этапе, модель учитывает домен-специфическую знания для эффективного представления визуальных и текстовых данных. Во втором этапе, изображения и текстовые признаки унифицируются с помощью контрастного обучения, чтобы обеспечить высокую общину и точность диагностики. Модель протестирована на датасете, включающем 27 866 клинических диагнозных отчетов и 27 866 CT-сканах от 8 809 больных, собранных в 9 китайских медицинских центрах, а также на TCIA-когорте. Модель выделяет 10 ключевых клинических задач, включая анатомическую оценку, диагностическую классификацию, и прогнозирование рецидива. Для улучшения эффективности обучения, RenalCLIP использует данные малого размера для достижения лучшего качества, чем базовые модели, обученные на полном датасете.
#### Результаты
RenalCLIP показала выдающиеся результаты по всем ключевым задачам. Например, в задаче прогноза рецидива-беспричинного выживания в TCIA-когорте, модель достигла C-индекса 0.726, что примерно на 20% лучше существующих базовых моделей. RenalCLIP также продемонстрировала высокую эффективность данных, достигнув пиковой производительности на задачах классификации и ответа на вопросы уже при малом размере обучающих данных. В таких задачах, как генерация отчетов и изображение-текст ретриевл, модель показала стабильно высокие результаты.
#### Значимость
RenalCLIP представляет собой мощный инструмент для повышения точности диагностики и прогноза почечных опухолей. Она обладает преимуществом в своей мультизадачной природе и высокой эффективности данных. Модель может стать ключевым средством для улучшения клинического рабочего процесса в урологической онкологии, помогая в диагностике
Abstract
The non-invasive assessment of increasingly incidentally discovered renal
masses is a critical challenge in urologic oncology, where diagnostic
uncertainty frequently leads to the overtreatment of benign or indolent tumors.
In this study, we developed and validated RenalCLIP using a dataset of 27,866
CT scans from 8,809 patients across nine Chinese medical centers and the public
TCIA cohort, a visual-language foundation model for characterization, diagnosis
and prognosis of renal mass. The model was developed via a two-stage
pre-training strategy that first enhances the image and text encoders with
domain-specific knowledge before aligning them through a contrastive learning
objective, to create robust representations for superior generalization and
diagnostic precision. RenalCLIP achieved better performance and superior
generalizability across 10 core tasks spanning the full clinical workflow of
kidney cancer, including anatomical assessment, diagnostic classification, and
survival prediction, compared with other state-of-the-art general-purpose CT
foundation models. Especially, for complicated task like recurrence-free
survival prediction in the TCIA cohort, RenalCLIP achieved a C-index of 0.726,
representing a substantial improvement of approximately 20% over the leading
baselines. Furthermore, RenalCLIP's pre-training imparted remarkable data
efficiency; in the diagnostic classification task, it only needs 20% training
data to achieve the peak performance of all baseline models even after they
were fully fine-tuned on 100% of the data. Additionally, it achieved superior
performance in report generation, image-text retrieval and zero-shot diagnosis
tasks. Our findings establish that RenalCLIP provides a robust tool with the
potential to enhance diagnostic accuracy, refine prognostic stratification, and
personalize the management of patients with kidney cancer.
Ссылки и действия
Дополнительные ресурсы: