A Disease-Centric Vision-Language Foundation Model for Precision Oncology in Kidney Cancer

2508.16569v1 eess.IV, cs.AI, cs.CV 2025-08-26
Авторы:

Yuhui Tao, Zhongwei Zhao, Zilong Wang, Xufang Luo, Feng Chen, Kang Wang, Chuanfu Wu, Xue Zhang, Shaoting Zhang, Jiaxi Yao, Xingwei Jin, Xinyang Jiang, Yifan Yang, Dongsheng Li, Lili Qiu, Zhiqiang Shao, Jianming Guo, Nengwang Yu, Shuo Wang, Ying Xiong

Резюме на русском

#### Контекст Оценка неоперируемых почечных масс, обнаруживаемых случайно, является ключевым вызовом в урологической онкологии. Частота доброинвазивных или индолентных опухолей приводит к частым оперированиям, необходимости дополнительных исследований и ненужным нагрузке на здравоохранение. Недостаток в эффективных инструментах для характеристики и прогнозирования почечных опухолей способствует перебору в лечении. В этом исследовании разработана и протестирована RenalCLIP — многозадачная визуально-языковая фундаментальная модель для характеристики, диагностики и прогноза почечных опухолей. Модель ставит задачу улучшить диагностическую точность и прогностическую стратификацию, а также обеспечить более персонализированное лечение больных почечными опухолями. #### Метод RenalCLIP была разработана с использованием двухэтапной стратегии предварительного обучения. В первом этапе, модель учитывает домен-специфическую знания для эффективного представления визуальных и текстовых данных. Во втором этапе, изображения и текстовые признаки унифицируются с помощью контрастного обучения, чтобы обеспечить высокую общину и точность диагностики. Модель протестирована на датасете, включающем 27 866 клинических диагнозных отчетов и 27 866 CT-сканах от 8 809 больных, собранных в 9 китайских медицинских центрах, а также на TCIA-когорте. Модель выделяет 10 ключевых клинических задач, включая анатомическую оценку, диагностическую классификацию, и прогнозирование рецидива. Для улучшения эффективности обучения, RenalCLIP использует данные малого размера для достижения лучшего качества, чем базовые модели, обученные на полном датасете. #### Результаты RenalCLIP показала выдающиеся результаты по всем ключевым задачам. Например, в задаче прогноза рецидива-беспричинного выживания в TCIA-когорте, модель достигла C-индекса 0.726, что примерно на 20% лучше существующих базовых моделей. RenalCLIP также продемонстрировала высокую эффективность данных, достигнув пиковой производительности на задачах классификации и ответа на вопросы уже при малом размере обучающих данных. В таких задачах, как генерация отчетов и изображение-текст ретриевл, модель показала стабильно высокие результаты. #### Значимость RenalCLIP представляет собой мощный инструмент для повышения точности диагностики и прогноза почечных опухолей. Она обладает преимуществом в своей мультизадачной природе и высокой эффективности данных. Модель может стать ключевым средством для улучшения клинического рабочего процесса в урологической онкологии, помогая в диагностике

Abstract

The non-invasive assessment of increasingly incidentally discovered renal masses is a critical challenge in urologic oncology, where diagnostic uncertainty frequently leads to the overtreatment of benign or indolent tumors. In this study, we developed and validated RenalCLIP using a dataset of 27,866 CT scans from 8,809 patients across nine Chinese medical centers and the public TCIA cohort, a visual-language foundation model for characterization, diagnosis and prognosis of renal mass. The model was developed via a two-stage pre-training strategy that first enhances the image and text encoders with domain-specific knowledge before aligning them through a contrastive learning objective, to create robust representations for superior generalization and diagnostic precision. RenalCLIP achieved better performance and superior generalizability across 10 core tasks spanning the full clinical workflow of kidney cancer, including anatomical assessment, diagnostic classification, and survival prediction, compared with other state-of-the-art general-purpose CT foundation models. Especially, for complicated task like recurrence-free survival prediction in the TCIA cohort, RenalCLIP achieved a C-index of 0.726, representing a substantial improvement of approximately 20% over the leading baselines. Furthermore, RenalCLIP's pre-training imparted remarkable data efficiency; in the diagnostic classification task, it only needs 20% training data to achieve the peak performance of all baseline models even after they were fully fine-tuned on 100% of the data. Additionally, it achieved superior performance in report generation, image-text retrieval and zero-shot diagnosis tasks. Our findings establish that RenalCLIP provides a robust tool with the potential to enhance diagnostic accuracy, refine prognostic stratification, and personalize the management of patients with kidney cancer.

Ссылки и действия