DinoAtten3D: Slice-Level Attention Aggregation of DinoV2 for 3D Brain MRI Anomaly Classification

2509.12512v1 eess.IV, cs.AI, cs.CV 2025-09-18
Авторы:

Fazle Rafsani, Jay Shah, Catherine D. Chong, Todd J. Schwedt, Teresa Wu

Резюме на русском

#### Контекст Область аномалий диагностики в медицинских изображениях является ключевой для ранней диагностики и прогнозирования заболеваний. Однако данная задача сталкивается с несколькими ограничениями, включая недостаточность аннотированных данных, неравномерность классов и высокую стоимость оценки экспертов. В этой статье предлагается продвинутое решение, основанное на моделях фундаментальных видений, чтобы улучшить точность и эффективность диагностики. #### Метод Предлагаемая методика, DinoAtten3D, сочетает в себе выдающуюся модель DINOv2, подготовленную на большом объеме неанонированных данных, и слой адаптивного внимания для обработки 2D срезов 3D MRI. Метод обрабатывает отдельные срезы в 2D, присваивая им веса при помощи механизма слабого внимания. Для улучшения классовой различимости и согласованности внутри классов, в работе применяется совмещенная функция потерь, включающая в себя супервизированное контрастное обучение и регуляризацию вариации классов. Эта технология применяется к данным ADNI и к многоклассовой куче с головными болями. #### Результаты Проведенные эксперименты показывают, что DinoAtten3D эффективно обрабатывает ограниченные данные и существенную неравномерность классов. Он показал высокую точность классификации аномалий в результате применения DINOv2 для выделения признаков и слоя адаптивного внимания для обработки срезов. Данные результаты подтверждают значительное улучшение по сравнению с другими подходами в области диагностики аномалий в 3D MRI. #### Значимость Разработанная система эффективна в области диагностики и классификации аномалий в 3D MRI, даже при малом объеме аннотированных данных. Она может быть применена в различных медицинских задачах, включая диагностику головных болей и других заболеваний. Главное преимущество заключается в использовании предобученных моделей и слоя внимания, что позволяет достичь высокой точности и эффективности. #### Выводы Результаты показывают, что DinoAtten3D является эффективным способом классификации аномалий в 3D MRI, он может быть расширен для других задач диагностики медицинских изображений. Будущие исследования будут сфокусированы на улучшении методов агрегации внимания и использовании более предобученных моделей для повышения точности диагностики.

Abstract

Anomaly detection and classification in medical imaging are critical for early diagnosis but remain challenging due to limited annotated data, class imbalance, and the high cost of expert labeling. Emerging vision foundation models such as DINOv2, pretrained on extensive, unlabeled datasets, offer generalized representations that can potentially alleviate these limitations. In this study, we propose an attention-based global aggregation framework tailored specifically for 3D medical image anomaly classification. Leveraging the self-supervised DINOv2 model as a pretrained feature extractor, our method processes individual 2D axial slices of brain MRIs, assigning adaptive slice-level importance weights through a soft attention mechanism. To further address data scarcity, we employ a composite loss function combining supervised contrastive learning with class-variance regularization, enhancing inter-class separability and intra-class consistency. We validate our framework on the ADNI dataset and an institutional multi-class headache cohort, demonstrating strong anomaly classification performance despite limited data availability and significant class imbalance. Our results highlight the efficacy of utilizing pretrained 2D foundation models combined with attention-based slice aggregation for robust volumetric anomaly detection in medical imaging. Our implementation is publicly available at https://github.com/Rafsani/DinoAtten3D.git.

Ссылки и действия