SegFormer Fine-Tuning with Dropout: Advancing Hair Artifact Removal in Skin Lesion Analysis
2509.02156v1
cs.CV, cs.LG
2025-09-05
Авторы:
Asif Mohammed Saad, Umme Niraj Mahi
Резюме на русском
#### Контекст
Проблемы с неоднородностью данных в области дерматологии, особенно в анализе дерматологических поверхностных тканей, остаются откровенными вызовами. Одной из ключевых проблем является влияние волос, которые могут приводить к заслонению ключевых диагностических признаков. Эти волосы часто создают замыкания, деформируют контуры и вносят шум, снижая точность диагностики. Для решения этой проблемы необходимо создать модель, которая могла бы идентифицировать и удалять эти волосы с высокой точностью, повышая точность диагностики.
#### Метод
Модель SegFormerWithDropout является основным инструментом для решения проблемы волос в дерматологических изображениях. Модель использует MiT-B2 в качестве энкодера, который был ранее обучен на базе ImageNet. Этот энкодер имеет входные данные с тремя каналами и двумя классами выхода. Для регуляризации используется dropout с шансом 0.3, чтобы уменьшить вероятность переобучения. Модель обучалась на 500 изображениях с деликатной маской волос, используя 10-классов кросс-валидацию. Оптимизация выполнялась с помощью AdamW со скоростью обучения 0.001, а loss-функцией выступала cross-entropy. Для предотвращения переобучения применялась early stopping, с датой окончания на трёх эпохах, с максимальной длиной 20 эпох.
#### Результаты
Проведенные эксперименты показали, что модель SegFormerWithDropout демонстрирует высокую точность в сегментации волос. Анализ параметров показал следующие результаты: Dice coefficient примерно 0.96, IoU 0.93, PSNR около 34 dB, SSIM 0.97, а LPIPS составил 0.06. Эти результаты указывают на высокую точность модели в удалении волос и сохранении диагностических признаков. Эти результаты подтверждают мощность SegFormerWithDropout в решении проблемы волос в дерматологии.
#### Значимость
Модель SegFormerWithDropout может быть применена в различных дерматологических приложениях, включая диагностику раковых опухолей на стадии раннего развития. Она позволяет повысить точность во всех стадиях диагностики, уменьшая "глазурные эффекты", которые могут быть вызваны волосами. Это может привести к более точным диагнозам и повышению уровня здравоохранения. Этот подход также может быть расширен на другие области, такие как распознавание других нежелательных элементов на изображениях.
#### Выводы
SegFormerWithDropout доказала свою эффективность в решении проблемы волос в дерматологии. Однако, для дальнейшего достижения результатов, необходимо продолжить работу над улучшением модели, в том числе с помощью более разнообразных датасетов, интеграции в системы диагностики и улучшении методов регуляризации.
Abstract
Hair artifacts in dermoscopic images present significant challenges for
accurate skin lesion analysis, potentially obscuring critical diagnostic
features in dermatological assessments. This work introduces a fine-tuned
SegFormer model augmented with dropout regularization to achieve precise hair
mask segmentation. The proposed SegformerWithDropout architecture leverages the
MiT-B2 encoder, pretrained on ImageNet, with an in-channel count of 3 and 2
output classes, incorporating a dropout probability of 0.3 in the segmentation
head to prevent overfitting. Training is conducted on a specialized dataset of
500 dermoscopic skin lesion images with fine-grained hair mask annotations,
employing 10-fold cross-validation, AdamW optimization with a learning rate of
0.001, and cross-entropy loss. Early stopping is applied based on validation
loss, with a patience of 3 epochs and a maximum of 20 epochs per fold.
Performance is evaluated using a comprehensive suite of metrics, including
Intersection over Union (IoU), Dice coefficient, Peak Signal-to-Noise Ratio
(PSNR), Structural Similarity Index (SSIM), and Learned Perceptual Image Patch
Similarity (LPIPS). Experimental results from the cross-validation demonstrate
robust performance, with average Dice coefficients reaching approximately 0.96
and IoU values of 0.93, alongside favorable PSNR (around 34 dB), SSIM (0.97),
and low LPIPS (0.06), highlighting the model's effectiveness in accurate hair
artifact segmentation and its potential to enhance preprocessing for downstream
skin cancer detection tasks.
Ссылки и действия
Дополнительные ресурсы: