Building a General SimCLR Self-Supervised Foundation Model Across Neurological Diseases to Advance 3D Brain MRI Diagnoses
2509.10620v1
cs.CV, cs.LG
2025-09-17
Авторы:
Emily Kaczmarek, Justin Szeto, Brennan Nichyporuk, Tal Arbel
Резюме на русском
## Контекст
Научные исследования в области 3D-структурных МРИ мозга становятся все более важными для обнаружения и мониторинга различных неврологических заболеваний, включая нейродегенеративные заболевания и инсульт. Технологии глубокого обучения уже показали их эффективность в анализе 3D-МРИ, но большинство моделей являются специфичными для конкретных задач и не могут обрабатывать различные задачи или пациентские популяции. Это ограничение приводит к трудностям в общей обработке МРИ и к необходимости в разработке универсальных моделей, которые могут использоваться для различных задач и групп клинических данных. В этом контексте возникает ценность разработки моделей, которые не только обладают высокой точностью, но и могут подстраиваться под различные клинические условия.
## Метод
Разработанная модель основывается на SimCLR, одной из самых популярных архитектур для самостоятельного сапервой обучения (SSL). Для обучения использовались данные из 11 публичных баз данных, содержащих МРИ-сканы в высоком разрешении, полученных от 18 759 пациентов с различными неврологическими заболеваниями. Методика SimCLR заключается в использовании собственных меток данных для определения структурных особенностей МРИ. Модель обучена на 44 958 сканов, что дает ей уникальную возможность охватывать широкий спектр клинических ситуаций. Затем модель была применена к четырьму различным клиническим задачам, включая прогнозирование заболевания Альцгеймера, чтобы оценить ее точность и универсальность.
## Результаты
Эксперименты показали, что модель SimCLR превосходит другие модели, включая Masked Autoencoders (MAE) и супервизированные сети, в четырьмя задачами клинического прогнозирования. Наиболее заметным улучшением было замечено при прогнозировании заболевания Альцгеймера: SimCLR показала значительное превосходство даже при использовании только 20% от обучающих данных. Это указывает на высокую универсальность модели и ее устойчивость к различным клиническим сценариям. Такие результаты свидетельствуют о том, что модель может быть применена во многих клинических задачах, даже при небольших объемах меток данных.
## Значимость
Модель SimCLR может быть применена во многих клинических областях, включая мониторинг и прогнозирование неврологических заболеваний. Ее широкий диапазон применения, высокая точность и универсальность делают ее инструментом, необходимым для широкой клинической практики. В отличие от многих других моделей, она обладает высоким разрешением и доступностью, что упрощает ее использование в практических клинических задачах. Это мо
Abstract
3D structural Magnetic Resonance Imaging (MRI) brain scans are commonly
acquired in clinical settings to monitor a wide range of neurological
conditions, including neurodegenerative disorders and stroke. While deep
learning models have shown promising results analyzing 3D MRI across a number
of brain imaging tasks, most are highly tailored for specific tasks with
limited labeled data, and are not able to generalize across tasks and/or
populations. The development of self-supervised learning (SSL) has enabled the
creation of large medical foundation models that leverage diverse, unlabeled
datasets ranging from healthy to diseased data, showing significant success in
2D medical imaging applications. However, even the very few foundation models
for 3D brain MRI that have been developed remain limited in resolution, scope,
or accessibility. In this work, we present a general, high-resolution
SimCLR-based SSL foundation model for 3D brain structural MRI, pre-trained on
18,759 patients (44,958 scans) from 11 publicly available datasets spanning
diverse neurological diseases. We compare our model to Masked Autoencoders
(MAE), as well as two supervised baselines, on four diverse downstream
prediction tasks in both in-distribution and out-of-distribution settings. Our
fine-tuned SimCLR model outperforms all other models across all tasks. Notably,
our model still achieves superior performance when fine-tuned using only 20% of
labeled training samples for predicting Alzheimer's disease. We use publicly
available code and data, and release our trained model at
https://github.com/emilykaczmarek/3D-Neuro-SimCLR, contributing a broadly
applicable and accessible foundation model for clinical brain MRI analysis.
Ссылки и действия
Дополнительные ресурсы: