Unified Supervision For Vision-Language Modeling in 3D Computed Tomography

2509.01554v1 cs.CV, cs.AI, cs.LG 2025-09-05

Авторы:

Hao-Chih Lee, Zelong Liu, Hamza Ahmed, Spencer Kim, Sean Huver, Vishwesh Nath, Zahi A. Fayad, Timothy Deyer, Xueyan Mei

Резюме на русском

#### Контекст Область визионно-языковых моделей (Vision-Language Models, VLMs) набирает популярность в радиологии за счет способности к zero-shot обучению и отсутствия необходимости в больших объемах меток данных. Однако в высокорисковых областях, таких как диагностическая радиология, эти модели часто не обладают достаточной точностью для надежного клинического применения. Это усложняется тем, что доступные общедоступные наборы данных трехмерных синуграфий рентгеновской томографии (CT) являются редкими и очень разнородными в форматах и гранулярности аннотаций. Чтобы решить эти проблемы, мы предлагаем Uniferum — новую трехмерную VLM, которая объединяет разнообразные сигналы управления (прогностические метки и маски сегментации) в единую модель обучения. #### Метод Uniferum использует трехмерные 3D CT данные с разными форматами аннотаций, включая классификационные метки и маски сегментации. Методология включает модификацию общих визионно-языковых моделей, чтобы интегрировать эти разноплановые сигналы управления в единую структуру. Модель разделяет обучение на несколько этапов: начальное обучение с классификационными метками, после чего добавляются маски сегментации для дополнительного адаптирования. Такой подход позволяет модели достигать высокой точности и гибкости при обработке разнородных данных. #### Результаты Мы провели эксперименты на трех разных 3D CT данных: CT-RATE, RAD-CHEST и INSPECT. Uniferum достиг статистически значимого улучшения показателя AUROC на CT-RATE, повысив его на 7% по сравнению с CLIP-based и другими моделями многометковой конволюционной нейронной сети. Модель подтвердила свою способность к generalization, демонстрируя неожиданную zero-shot высокую точность на RAD-CHEST и INSPECT. Эти результаты подтверждают эффективность интеграции разнородных аннотаций и сегментационного анализа для повышения производительности моделей. #### Значимость Uniferum может быть применен в различных здравоохранных задачах, включая диагностику и мониторинг заболеваний на основе 3D CT скананий. Его преимущество в том, что он обеспечивает достижение высокой точности без требований к большому объему меток данных. Это может существенно сократить время и стоимость для обучения моделей в клинических приложениях. Кроме того, Uniferum может стать моделью для будущих исследований в области VLMs для 3D медицинской импликации. #### Выводы Результаты Uniferum показывают, что одновременное использование разнородных сигналов управления может значительно повысить точность и общую выносливость трехмерных VLMs в области медицинской импликации. Будущие исследования будут сосредоточены на расширении модели для допо

Abstract

General-purpose vision-language models (VLMs) have emerged as promising tools in radiology, offering zero-shot capabilities that mitigate the need for large labeled datasets. However, in high-stakes domains like diagnostic radiology, these models often lack the discriminative precision required for reliable clinical use. This challenge is compounded by the scarcity and heterogeneity of publicly available volumetric CT datasets, which vary widely in annotation formats and granularity. To address these limitations, we introduce Uniferum, a volumetric VLM that unifies diverse supervision signals, encoded in classification labels and segmentation masks, into a single training framework. By harmonizing three public 3D CT datasets with distinct annotations, Uniferum achieves state-of-the-art performance, improving AUROC on the CT-RATE benchmark by 7% compared to CLIP-based and conventional multi-label convolutional models. The model demonstrates robust out-of-distribution generalization, with observed evidence of unexpected zero-shot performance on the RAD-CHEST and INSPECT datasets. Our results highlight the effectiveness of integrating heterogeneous annotations and body segmentation to enhance model performance, setting a new direction for clinically reliable, data-efficient VLMs in 3D medical imaging.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Unified Supervision For Vision-Language Modeling in 3D Computed Tomography

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

PyroFocus: A Deep Learning Approach to Real-Time Wildfire Detection in Multispec...

ProtoEFNet: Dynamic Prototype Learning for Inherently Interpretable Ejection Fra...

GalaxyDiT: Efficient Video Generation with Guidance Alignment and Adaptive Proxy...

Divide, then Ground: Adapting Frame Selection to Query Types for Long-Form Video...

PSA: Pyramid Sparse Attention for Efficient Video Understanding and Generation

Навигация