Vision Transformers for Kidney Stone Image Classification: A Comparative Study with CNNs

2508.13461v1 cs.CV, cs.LG 2025-08-21

Авторы:

Ivan Reyes-Amezcua, Francisco Lopez-Tiro, Clement Larose, Andres Mendez-Vazquez, Gilberto Ochoa-Ruiz, Christian Daul

Резюме на русском

-------------------------------------------- ## Контекст -------------------------------------------- Определение и классификация камней печени (киданов) является важной задачей в урологии, так как позволяет выбирать персонализированные методы лечения и предотвращать повторные операции. Несмотря на то, что конволюционные нейронные сети (CNN) демонстрируют заслуженный успех в этой области, они часто сталкиваются с трудностями при работе с изображениями, особенно в условиях разного рода императивов. Данный исследовательский проект анализирует возможности Vision Transformers (ViTs) в сравнении с CNN-моделями для решения этой задачи, основываясь на двух экспериментальных наборах данных, содержащих изображения, полученные фотокамерой Canon и ультразвуковым лезвием. -------------------------------------------- ## Метод -------------------------------------------- В ходе исследования использовались два архитектурных подхода: Vision Transformer (ViT) и ResNet50 на примере CNN. Модель ViT была использована с предобученными весами на ImageNet-21k. Для обучения и тестирования использовались два набора данных: изображения из секционных отрезков исследований и смешанные изображения с различных видов видеокамер. Для обеспечения надежности исследования, данные отобраны с учетом разных разрешений, скрытых условий и источников изображений. -------------------------------------------- ## Результаты -------------------------------------------- Эксперименты показали, что Vision Transformer-based модель (ViT-base) показала значительные выигрыши по сравнению с CNN-моделью (ResNet50) в задаче классификации камней печени. В частности, ViT-модель достигла 95.2% точности и 95.1% F1-меры в работе над секционными отрезками, в то время как ResNet50 показал значения 64.5% и 59.3%, соответственно. Также были проведены тесты на смешанных изображениях, где ViT-модель показала 87.1% точности, а ResNet50 - 78.4%. Эти результаты свидетельствуют о более высокой точности и рекомендательной темпологии ViT по сравнению с CNN. -------------------------------------------- ## Значимость -------------------------------------------- Высокая точность и информативность Vision Transformer моделей открывают новые горизонты в области медицинского анализа изображений. Эти модели могут быть применены для разных видов медицинских изображений, а также в других областях, где требуется высокая точность классификации. Их простота в использовании, высокая скорость обучения и надежность делают их привлекательными для практического применения в медицинской практике. -------------------------------------------- ## Выводы -------------------------------------------- В результате исследования было показано, что Vision Transformers (ViTs) превосходят CNN-модели по точности и качеству классификации изображений камней печени. Результаты исследования открывают пути для будущих исследований в области применения Vision Transformers в других задачах медицинского анализа изображений. На будущее, модификации и усовершенствования ViT моделей могут позволить улучшить их применение в различных медицинских зада

Abstract

Kidney stone classification from endoscopic images is critical for personalized treatment and recurrence prevention. While convolutional neural networks (CNNs) have shown promise in this task, their limited ability to capture long-range dependencies can hinder performance under variable imaging conditions. This study presents a comparative analysis between Vision Transformers (ViTs) and CNN-based models, evaluating their performance on two ex vivo datasets comprising CCD camera and flexible ureteroscope images. The ViT-base model pretrained on ImageNet-21k consistently outperformed a ResNet50 baseline across multiple imaging conditions. For instance, in the most visually complex subset (Section patches from endoscopic images), the ViT model achieved 95.2% accuracy and 95.1% F1-score, compared to 64.5% and 59.3% with ResNet50. In the mixed-view subset from CCD-camera images, ViT reached 87.1% accuracy versus 78.4% with CNN. These improvements extend across precision and recall as well. The results demonstrate that ViT-based architectures provide superior classification performance and offer a scalable alternative to conventional CNNs for kidney stone image analysis.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Vision Transformers for Kidney Stone Image Classification: A Comparative Study with CNNs

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Plug-and-Play Image Restoration with Flow Matching: A Continuous Viewpoint

Inference-time Stochastic Refinement of GRU-Normalizing Flow for Real-time Video...

Rethinking the Use of Vision Transformers for AI-Generated Image Detection

Aligned but Stereotypical? The Hidden Influence of System Prompts on Social Bias...

HTR-ConvText: Leveraging Convolution and Textual Information for Handwritten Tex...

Навигация