Unmasking Interstitial Lung Diseases: Leveraging Masked Autoencoders for Diagnosis

2508.04429v1 eess.IV, cs.CV 2025-08-09
Авторы:

Ethan Dack, Lorenzo Brigato, Vasilis Dedousis, Janine Gote-Schniering, Cheryl, Hanno Hoppe, Aristomenis Exadaktylos, Manuela Funke-Chambour, Thomas Geiser, Andreas Christe, Lukas Ebner, Stavroula Mougiakakou

Резюме на русском

**Резюме** Интерстициальные болезни легких (ILD) широко распространены, но диагностика их часто становится сложной из-за нехватки больших лабораторно отмеченных наборов данных. Масообучение (Masked Autoencoders, MAE) — мощный подход к созданию информативных представлений, особенно при ограниченных теггированных данных. Мы предлагаем использовать MAE для обучения модели на 5000+ полотен CT-сканов, объединив внутренние с уже существующими открытыми базами, связанными с COVID-19 и бактериальной пневмонией. Эта модель позже была применена для классификации ILD. Наши результаты показывают, что MAE могут эффективно извлекать клинически значимые признаки, даже в условиях нехватки меток. Надеемся, что наша работа поможет в улучшении диагностики и исследовании ILD. Исходный код и модели доступны на GitHub: https://github.com/eedack01/lung_masked_autoencoder.

Abstract

Masked autoencoders (MAEs) have emerged as a powerful approach for pre-training on unlabelled data, capable of learning robust and informative feature representations. This is particularly advantageous in diffused lung disease research, where annotated imaging datasets are scarce. To leverage this, we train an MAE on a curated collection of over 5,000 chest computed tomography (CT) scans, combining in-house data with publicly available scans from related conditions that exhibit similar radiological patterns, such as COVID-19 and bacterial pneumonia. The pretrained MAE is then fine-tuned on a downstream classification task for diffused lung disease diagnosis. Our findings demonstrate that MAEs can effectively extract clinically meaningful features and improve diagnostic performance, even in the absence of large-scale labelled datasets. The code and the models are available here: https://github.com/eedack01/lung_masked_autoencoder.

Ссылки и действия