Vision Transformers for Kidney Stone Image Classification: A Comparative Study with CNNs

2508.13461v2 cs.CV, cs.LG 2025-08-22

Авторы:

Ivan Reyes-Amezcua, Francisco Lopez-Tiro, Clement Larose, Andres Mendez-Vazquez, Gilberto Ochoa-Ruiz, Christian Daul

Резюме на русском

## Контекст Определение типа и размера каменной заложения в почках является ключевым этапом в персонализированном лечении больных почечным камнем и в предотвращении повторного возникновения этого заболевания. Однако этот процесс часто сталкивается с проблемами, такими как разнообразие видов камней и их форм, а также усложняется вариативностью импульсивных изображений, полученных при видеоэндоскопии. Несмотря на то, что нейронные сети типа CNN (Convolutional Neural Networks) доказали свою эффективность в задачах классификации изображений, они имеют ограниченную способность отслеживать длинные зависимости в изображениях. В свете этих проблем, цель данного исследования заключается в сравнительном анализе того, насколько новые модели Vision Transformers (ViTs) способны выполнять классификацию камней в почках, сравнивая их с существующими моделями на основе CNN. ## Метод Для решения проблемы классификации камней в почках были использованы два разных выборки данных: - **Ex vivo данные**: содержали изображения, полученные с использованием CCD-камеры и гибкого уретероскопа. - **Mixed-view данные**: включали изображения, сфотографированные с различных углов с использованием CCD-камеры. Модель Vision Transformer (ViT) была сравнивана с моделью ResNet50. Использование ViT-large модели, подготовленной на ImageNet-21k, позволило проводить эксперименты с распространенными изображениями. Для обучения и оценки производительности сетей использовались метрики, такие как точность (accuracy), F1-score, precision и recall. ## Результаты Результаты сравнительного тестирования показали значительные преимущества модели ViT по сравнению с CNN: - **В подвыборке Section patches from endoscopic images**: ViT-large достигло 95.2% точности и 95.1% F1-score, в то время как ResNet50 показал 64.5% и 59.3%, соответственно. - **В подвыборке Mixed-view от CCD-камеры**: ViT-large достиг 87.1% точности, в то время как ResNet50 показал 78.4%. Такие результаты указывают на то, что ViT модели превосходят CNN в области классификации камней в почках, особенно в условиях сложной визуальной среды. ## Значимость Результаты данного исследования имеют большое значение в следующих областях применения: - **Медицинская диагностика**: Значительное улучшение точности классификации камней в почках может положительно сказаться на точности диагностики и выборе лучшего лечения. - **Персонализированное лечение**: Улучшенная точность может привести к более эффективному управлению заболеванием и предотвращению повторного возникновения каменной заложения. - **Обработка изображений**: Модели ViT могут иметь более широкое применение в обработке изображений, включая другие медицинские и не только применения,

Abstract

Kidney stone classification from endoscopic images is critical for personalized treatment and recurrence prevention. While convolutional neural networks (CNNs) have shown promise in this task, their limited ability to capture long-range dependencies can hinder performance under variable imaging conditions. This study presents a comparative analysis between Vision Transformers (ViTs) and CNN-based models, evaluating their performance on two ex vivo datasets comprising CCD camera and flexible ureteroscope images. The ViT-base model pretrained on ImageNet-21k consistently outperformed a ResNet50 baseline across multiple imaging conditions. For instance, in the most visually complex subset (Section patches from endoscopic images), the ViT model achieved 95.2% accuracy and 95.1% F1-score, compared to 64.5% and 59.3% with ResNet50. In the mixed-view subset from CCD-camera images, ViT reached 87.1% accuracy versus 78.4% with CNN. These improvements extend across precision and recall as well. The results demonstrate that ViT-based architectures provide superior classification performance and offer a scalable alternative to conventional CNNs for kidney stone image analysis.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Vision Transformers for Kidney Stone Image Classification: A Comparative Study with CNNs

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Plug-and-Play Image Restoration with Flow Matching: A Continuous Viewpoint

Inference-time Stochastic Refinement of GRU-Normalizing Flow for Real-time Video...

Rethinking the Use of Vision Transformers for AI-Generated Image Detection

Aligned but Stereotypical? The Hidden Influence of System Prompts on Social Bias...

HTR-ConvText: Leveraging Convolution and Textual Information for Handwritten Tex...

Навигация