HistoViT: Vision Transformer for Accurate and Scalable Histopathological Cancer Diagnosis

2508.11181v1 eess.IV, cs.CV, cs.LG 2025-08-19
Авторы:

Faisal Ahmed

Резюме на русском

#### Контекст Одним из ключевых вызовов в современной патологии является достижение точного и масштабируемого диагноза раковых заболеваний, особенно для таких малых групп симптомов, как молочной железы, простаты, костного и шейного миома. Эти раки часто проявляются сложной историей здоровья и выраженной индивидуальностью гистологических структур. Для решения этой проблемы требуется новая методология, которая могла бы обеспечить обширную аналитическую способность и стабильность в классификации. #### Метод Мы предлагаем новую модель глубокого обучения на основе Vision Transformer (ViT), адаптированную для классификации гистологических изображений. Основная идея заключается в использовании методологии разбиения изображений на мозаичные плитки, которые потом переводятся в тензоры PyTorch и нормализуются для соответствия архитектуре ViT. Это решение позволяет уменьшить сложность традиционных методов, улучшить стабильность обучения и повысить точность классификации. #### Результаты Мы проверили модель на четырьмя различными датасетами: ICIAR2018 (молочная железа), SICAPv2 (простата), UT-Osteosarcoma (костное) и SipakMed (шейной). Наша модель демонстрирует выдающиеся результаты: 99.32% точности для молочной железы, 96.92% для простаты, 95.28% для костных раков и 96.94% для шейного миома. Результаты показывают высокую общую точность, что указывает на сильную значимость этой модели в расширении возможностей цифровой патологии. #### Значимость Модель HistoViT предлагает возможности для масштабируемого и многоклассового диагноза рака на основе гистологических изображений. Она может быть применена в различных патологических условиях для повышения точности диагностики, уменьшения риска ошибок и улучшения работы врачей. Особенно значимо её применение в области цифровой патологии, где скейлируемость и универсальность модели открывают новые перспективы в традиционных методах диагностики. #### Выводы Наша модель HistoViT демонстрирует перспективу в патологической диагностике, обеспечивая высокую точность и масштабируемость. Будущие исследования будут фокусироваться на расширении области применения, включении дополнительных датасетов и улучшении интеграции в клинический практический подход к диагностике рака.

Abstract

Accurate and scalable cancer diagnosis remains a critical challenge in modern pathology, particularly for malignancies such as breast, prostate, bone, and cervical, which exhibit complex histological variability. In this study, we propose a transformer-based deep learning framework for multi-class tumor classification in histopathological images. Leveraging a fine-tuned Vision Transformer (ViT) architecture, our method addresses key limitations of conventional convolutional neural networks, offering improved performance, reduced preprocessing requirements, and enhanced scalability across tissue types. To adapt the model for histopathological cancer images, we implement a streamlined preprocessing pipeline that converts tiled whole-slide images into PyTorch tensors and standardizes them through data normalization. This ensures compatibility with the ViT architecture and enhances both convergence stability and overall classification performance. We evaluate our model on four benchmark datasets: ICIAR2018 (breast), SICAPv2 (prostate), UT-Osteosarcoma (bone), and SipakMed (cervical) dataset -- demonstrating consistent outperformance over existing deep learning methods. Our approach achieves classification accuracies of 99.32%, 96.92%, 95.28%, and 96.94% for breast, prostate, bone, and cervical cancers respectively, with area under the ROC curve (AUC) scores exceeding 99% across all datasets. These results confirm the robustness, generalizability, and clinical potential of transformer-based architectures in digital pathology. Our work represents a significant advancement toward reliable, automated, and interpretable cancer diagnosis systems that can alleviate diagnostic burdens and improve healthcare outcomes.

Ссылки и действия