Vision Transformers for Kidney Stone Image Classification: A Comparative Study with CNNs
2508.13461v2
cs.CV, cs.LG
2025-08-22
Авторы:
Ivan Reyes-Amezcua, Francisco Lopez-Tiro, Clement Larose, Andres Mendez-Vazquez, Gilberto Ochoa-Ruiz, Christian Daul
Резюме на русском
## Контекст
Определение типа и размера каменной заложения в почках является ключевым этапом в персонализированном лечении больных почечным камнем и в предотвращении повторного возникновения этого заболевания. Однако этот процесс часто сталкивается с проблемами, такими как разнообразие видов камней и их форм, а также усложняется вариативностью импульсивных изображений, полученных при видеоэндоскопии. Несмотря на то, что нейронные сети типа CNN (Convolutional Neural Networks) доказали свою эффективность в задачах классификации изображений, они имеют ограниченную способность отслеживать длинные зависимости в изображениях. В свете этих проблем, цель данного исследования заключается в сравнительном анализе того, насколько новые модели Vision Transformers (ViTs) способны выполнять классификацию камней в почках, сравнивая их с существующими моделями на основе CNN.
## Метод
Для решения проблемы классификации камней в почках были использованы два разных выборки данных:
- **Ex vivo данные**: содержали изображения, полученные с использованием CCD-камеры и гибкого уретероскопа.
- **Mixed-view данные**: включали изображения, сфотографированные с различных углов с использованием CCD-камеры.
Модель Vision Transformer (ViT) была сравнивана с моделью ResNet50. Использование ViT-large модели, подготовленной на ImageNet-21k, позволило проводить эксперименты с распространенными изображениями. Для обучения и оценки производительности сетей использовались метрики, такие как точность (accuracy), F1-score, precision и recall.
## Результаты
Результаты сравнительного тестирования показали значительные преимущества модели ViT по сравнению с CNN:
- **В подвыборке Section patches from endoscopic images**: ViT-large достигло 95.2% точности и 95.1% F1-score, в то время как ResNet50 показал 64.5% и 59.3%, соответственно.
- **В подвыборке Mixed-view от CCD-камеры**: ViT-large достиг 87.1% точности, в то время как ResNet50 показал 78.4%.
Такие результаты указывают на то, что ViT модели превосходят CNN в области классификации камней в почках, особенно в условиях сложной визуальной среды.
## Значимость
Результаты данного исследования имеют большое значение в следующих областях применения:
- **Медицинская диагностика**: Значительное улучшение точности классификации камней в почках может положительно сказаться на точности диагностики и выборе лучшего лечения.
- **Персонализированное лечение**: Улучшенная точность может привести к более эффективному управлению заболеванием и предотвращению повторного возникновения каменной заложения.
- **Обработка изображений**: Модели ViT могут иметь более широкое применение в обработке изображений, включая другие медицинские и не только применения,
Abstract
Kidney stone classification from endoscopic images is critical for
personalized treatment and recurrence prevention. While convolutional neural
networks (CNNs) have shown promise in this task, their limited ability to
capture long-range dependencies can hinder performance under variable imaging
conditions. This study presents a comparative analysis between Vision
Transformers (ViTs) and CNN-based models, evaluating their performance on two
ex vivo datasets comprising CCD camera and flexible ureteroscope images. The
ViT-base model pretrained on ImageNet-21k consistently outperformed a ResNet50
baseline across multiple imaging conditions. For instance, in the most visually
complex subset (Section patches from endoscopic images), the ViT model achieved
95.2% accuracy and 95.1% F1-score, compared to 64.5% and 59.3% with ResNet50.
In the mixed-view subset from CCD-camera images, ViT reached 87.1% accuracy
versus 78.4% with CNN. These improvements extend across precision and recall as
well. The results demonstrate that ViT-based architectures provide superior
classification performance and offer a scalable alternative to conventional
CNNs for kidney stone image analysis.
Ссылки и действия
Дополнительные ресурсы: