Vision Transformers for Kidney Stone Image Classification: A Comparative Study with CNNs
2508.13461v1
cs.CV, cs.LG
2025-08-21
Авторы:
Ivan Reyes-Amezcua, Francisco Lopez-Tiro, Clement Larose, Andres Mendez-Vazquez, Gilberto Ochoa-Ruiz, Christian Daul
Резюме на русском
--------------------------------------------
## Контекст
--------------------------------------------
Определение и классификация камней печени (киданов) является важной задачей в урологии, так как позволяет выбирать персонализированные методы лечения и предотвращать повторные операции. Несмотря на то, что конволюционные нейронные сети (CNN) демонстрируют заслуженный успех в этой области, они часто сталкиваются с трудностями при работе с изображениями, особенно в условиях разного рода императивов. Данный исследовательский проект анализирует возможности Vision Transformers (ViTs) в сравнении с CNN-моделями для решения этой задачи, основываясь на двух экспериментальных наборах данных, содержащих изображения, полученные фотокамерой Canon и ультразвуковым лезвием.
--------------------------------------------
## Метод
--------------------------------------------
В ходе исследования использовались два архитектурных подхода: Vision Transformer (ViT) и ResNet50 на примере CNN. Модель ViT была использована с предобученными весами на ImageNet-21k. Для обучения и тестирования использовались два набора данных: изображения из секционных отрезков исследований и смешанные изображения с различных видов видеокамер. Для обеспечения надежности исследования, данные отобраны с учетом разных разрешений, скрытых условий и источников изображений.
--------------------------------------------
## Результаты
--------------------------------------------
Эксперименты показали, что Vision Transformer-based модель (ViT-base) показала значительные выигрыши по сравнению с CNN-моделью (ResNet50) в задаче классификации камней печени. В частности, ViT-модель достигла 95.2% точности и 95.1% F1-меры в работе над секционными отрезками, в то время как ResNet50 показал значения 64.5% и 59.3%, соответственно. Также были проведены тесты на смешанных изображениях, где ViT-модель показала 87.1% точности, а ResNet50 - 78.4%. Эти результаты свидетельствуют о более высокой точности и рекомендательной темпологии ViT по сравнению с CNN.
--------------------------------------------
## Значимость
--------------------------------------------
Высокая точность и информативность Vision Transformer моделей открывают новые горизонты в области медицинского анализа изображений. Эти модели могут быть применены для разных видов медицинских изображений, а также в других областях, где требуется высокая точность классификации. Их простота в использовании, высокая скорость обучения и надежность делают их привлекательными для практического применения в медицинской практике.
--------------------------------------------
## Выводы
--------------------------------------------
В результате исследования было показано, что Vision Transformers (ViTs) превосходят CNN-модели по точности и качеству классификации изображений камней печени. Результаты исследования открывают пути для будущих исследований в области применения Vision Transformers в других задачах медицинского анализа изображений. На будущее, модификации и усовершенствования ViT моделей могут позволить улучшить их применение в различных медицинских зада
Abstract
Kidney stone classification from endoscopic images is critical for
personalized treatment and recurrence prevention. While convolutional neural
networks (CNNs) have shown promise in this task, their limited ability to
capture long-range dependencies can hinder performance under variable imaging
conditions. This study presents a comparative analysis between Vision
Transformers (ViTs) and CNN-based models, evaluating their performance on two
ex vivo datasets comprising CCD camera and flexible ureteroscope images. The
ViT-base model pretrained on ImageNet-21k consistently outperformed a ResNet50
baseline across multiple imaging conditions. For instance, in the most visually
complex subset (Section patches from endoscopic images), the ViT model achieved
95.2% accuracy and 95.1% F1-score, compared to 64.5% and 59.3% with ResNet50.
In the mixed-view subset from CCD-camera images, ViT reached 87.1% accuracy
versus 78.4% with CNN. These improvements extend across precision and recall as
well. The results demonstrate that ViT-based architectures provide superior
classification performance and offer a scalable alternative to conventional
CNNs for kidney stone image analysis.
Ссылки и действия
Дополнительные ресурсы: