DinoAtten3D: Slice-Level Attention Aggregation of DinoV2 for 3D Brain MRI Anomaly Classification
2509.12512v1
eess.IV, cs.AI, cs.CV
2025-09-18
Авторы:
Fazle Rafsani, Jay Shah, Catherine D. Chong, Todd J. Schwedt, Teresa Wu
Резюме на русском
#### Контекст
Область аномалий диагностики в медицинских изображениях является ключевой для ранней диагностики и прогнозирования заболеваний. Однако данная задача сталкивается с несколькими ограничениями, включая недостаточность аннотированных данных, неравномерность классов и высокую стоимость оценки экспертов. В этой статье предлагается продвинутое решение, основанное на моделях фундаментальных видений, чтобы улучшить точность и эффективность диагностики.
#### Метод
Предлагаемая методика, DinoAtten3D, сочетает в себе выдающуюся модель DINOv2, подготовленную на большом объеме неанонированных данных, и слой адаптивного внимания для обработки 2D срезов 3D MRI. Метод обрабатывает отдельные срезы в 2D, присваивая им веса при помощи механизма слабого внимания. Для улучшения классовой различимости и согласованности внутри классов, в работе применяется совмещенная функция потерь, включающая в себя супервизированное контрастное обучение и регуляризацию вариации классов. Эта технология применяется к данным ADNI и к многоклассовой куче с головными болями.
#### Результаты
Проведенные эксперименты показывают, что DinoAtten3D эффективно обрабатывает ограниченные данные и существенную неравномерность классов. Он показал высокую точность классификации аномалий в результате применения DINOv2 для выделения признаков и слоя адаптивного внимания для обработки срезов. Данные результаты подтверждают значительное улучшение по сравнению с другими подходами в области диагностики аномалий в 3D MRI.
#### Значимость
Разработанная система эффективна в области диагностики и классификации аномалий в 3D MRI, даже при малом объеме аннотированных данных. Она может быть применена в различных медицинских задачах, включая диагностику головных болей и других заболеваний. Главное преимущество заключается в использовании предобученных моделей и слоя внимания, что позволяет достичь высокой точности и эффективности.
#### Выводы
Результаты показывают, что DinoAtten3D является эффективным способом классификации аномалий в 3D MRI, он может быть расширен для других задач диагностики медицинских изображений. Будущие исследования будут сфокусированы на улучшении методов агрегации внимания и использовании более предобученных моделей для повышения точности диагностики.
Abstract
Anomaly detection and classification in medical imaging are critical for
early diagnosis but remain challenging due to limited annotated data, class
imbalance, and the high cost of expert labeling. Emerging vision foundation
models such as DINOv2, pretrained on extensive, unlabeled datasets, offer
generalized representations that can potentially alleviate these limitations.
In this study, we propose an attention-based global aggregation framework
tailored specifically for 3D medical image anomaly classification. Leveraging
the self-supervised DINOv2 model as a pretrained feature extractor, our method
processes individual 2D axial slices of brain MRIs, assigning adaptive
slice-level importance weights through a soft attention mechanism. To further
address data scarcity, we employ a composite loss function combining supervised
contrastive learning with class-variance regularization, enhancing inter-class
separability and intra-class consistency. We validate our framework on the ADNI
dataset and an institutional multi-class headache cohort, demonstrating strong
anomaly classification performance despite limited data availability and
significant class imbalance. Our results highlight the efficacy of utilizing
pretrained 2D foundation models combined with attention-based slice aggregation
for robust volumetric anomaly detection in medical imaging. Our implementation
is publicly available at https://github.com/Rafsani/DinoAtten3D.git.
Ссылки и действия
Дополнительные ресурсы: