Unified Supervision For Vision-Language Modeling in 3D Computed Tomography
2509.01554v1
cs.CV, cs.AI, cs.LG
2025-09-05
Авторы:
Hao-Chih Lee, Zelong Liu, Hamza Ahmed, Spencer Kim, Sean Huver, Vishwesh Nath, Zahi A. Fayad, Timothy Deyer, Xueyan Mei
Резюме на русском
#### Контекст
Область визионно-языковых моделей (Vision-Language Models, VLMs) набирает популярность в радиологии за счет способности к zero-shot обучению и отсутствия необходимости в больших объемах меток данных. Однако в высокорисковых областях, таких как диагностическая радиология, эти модели часто не обладают достаточной точностью для надежного клинического применения. Это усложняется тем, что доступные общедоступные наборы данных трехмерных синуграфий рентгеновской томографии (CT) являются редкими и очень разнородными в форматах и гранулярности аннотаций. Чтобы решить эти проблемы, мы предлагаем Uniferum — новую трехмерную VLM, которая объединяет разнообразные сигналы управления (прогностические метки и маски сегментации) в единую модель обучения.
#### Метод
Uniferum использует трехмерные 3D CT данные с разными форматами аннотаций, включая классификационные метки и маски сегментации. Методология включает модификацию общих визионно-языковых моделей, чтобы интегрировать эти разноплановые сигналы управления в единую структуру. Модель разделяет обучение на несколько этапов: начальное обучение с классификационными метками, после чего добавляются маски сегментации для дополнительного адаптирования. Такой подход позволяет модели достигать высокой точности и гибкости при обработке разнородных данных.
#### Результаты
Мы провели эксперименты на трех разных 3D CT данных: CT-RATE, RAD-CHEST и INSPECT. Uniferum достиг статистически значимого улучшения показателя AUROC на CT-RATE, повысив его на 7% по сравнению с CLIP-based и другими моделями многометковой конволюционной нейронной сети. Модель подтвердила свою способность к generalization, демонстрируя неожиданную zero-shot высокую точность на RAD-CHEST и INSPECT. Эти результаты подтверждают эффективность интеграции разнородных аннотаций и сегментационного анализа для повышения производительности моделей.
#### Значимость
Uniferum может быть применен в различных здравоохранных задачах, включая диагностику и мониторинг заболеваний на основе 3D CT скананий. Его преимущество в том, что он обеспечивает достижение высокой точности без требований к большому объему меток данных. Это может существенно сократить время и стоимость для обучения моделей в клинических приложениях. Кроме того, Uniferum может стать моделью для будущих исследований в области VLMs для 3D медицинской импликации.
#### Выводы
Результаты Uniferum показывают, что одновременное использование разнородных сигналов управления может значительно повысить точность и общую выносливость трехмерных VLMs в области медицинской импликации. Будущие исследования будут сосредоточены на расширении модели для допо
Abstract
General-purpose vision-language models (VLMs) have emerged as promising tools
in radiology, offering zero-shot capabilities that mitigate the need for large
labeled datasets. However, in high-stakes domains like diagnostic radiology,
these models often lack the discriminative precision required for reliable
clinical use. This challenge is compounded by the scarcity and heterogeneity of
publicly available volumetric CT datasets, which vary widely in annotation
formats and granularity. To address these limitations, we introduce Uniferum, a
volumetric VLM that unifies diverse supervision signals, encoded in
classification labels and segmentation masks, into a single training framework.
By harmonizing three public 3D CT datasets with distinct annotations, Uniferum
achieves state-of-the-art performance, improving AUROC on the CT-RATE benchmark
by 7% compared to CLIP-based and conventional multi-label convolutional models.
The model demonstrates robust out-of-distribution generalization, with observed
evidence of unexpected zero-shot performance on the RAD-CHEST and INSPECT
datasets. Our results highlight the effectiveness of integrating heterogeneous
annotations and body segmentation to enhance model performance, setting a new
direction for clinically reliable, data-efficient VLMs in 3D medical imaging.
Ссылки и действия
Дополнительные ресурсы: