Unmasking Interstitial Lung Diseases: Leveraging Masked Autoencoders for Diagnosis
2508.04429v1
eess.IV, cs.CV
2025-08-09
Авторы:
Ethan Dack, Lorenzo Brigato, Vasilis Dedousis, Janine Gote-Schniering, Cheryl, Hanno Hoppe, Aristomenis Exadaktylos, Manuela Funke-Chambour, Thomas Geiser, Andreas Christe, Lukas Ebner, Stavroula Mougiakakou
Резюме на русском
**Резюме**
Интерстициальные болезни легких (ILD) широко распространены, но диагностика их часто становится сложной из-за нехватки больших лабораторно отмеченных наборов данных. Масообучение (Masked Autoencoders, MAE) — мощный подход к созданию информативных представлений, особенно при ограниченных теггированных данных. Мы предлагаем использовать MAE для обучения модели на 5000+ полотен CT-сканов, объединив внутренние с уже существующими открытыми базами, связанными с COVID-19 и бактериальной пневмонией. Эта модель позже была применена для классификации ILD. Наши результаты показывают, что MAE могут эффективно извлекать клинически значимые признаки, даже в условиях нехватки меток. Надеемся, что наша работа поможет в улучшении диагностики и исследовании ILD. Исходный код и модели доступны на GitHub: https://github.com/eedack01/lung_masked_autoencoder.
Abstract
Masked autoencoders (MAEs) have emerged as a powerful approach for
pre-training on unlabelled data, capable of learning robust and informative
feature representations. This is particularly advantageous in diffused lung
disease research, where annotated imaging datasets are scarce. To leverage
this, we train an MAE on a curated collection of over 5,000 chest computed
tomography (CT) scans, combining in-house data with publicly available scans
from related conditions that exhibit similar radiological patterns, such as
COVID-19 and bacterial pneumonia. The pretrained MAE is then fine-tuned on a
downstream classification task for diffused lung disease diagnosis. Our
findings demonstrate that MAEs can effectively extract clinically meaningful
features and improve diagnostic performance, even in the absence of large-scale
labelled datasets. The code and the models are available here:
https://github.com/eedack01/lung_masked_autoencoder.
Ссылки и действия
Дополнительные ресурсы: