HistoViT: Vision Transformer for Accurate and Scalable Histopathological Cancer Diagnosis
2508.11181v1
eess.IV, cs.CV, cs.LG
2025-08-19
Авторы:
Faisal Ahmed
Резюме на русском
#### Контекст
Одним из ключевых вызовов в современной патологии является достижение точного и масштабируемого диагноза раковых заболеваний, особенно для таких малых групп симптомов, как молочной железы, простаты, костного и шейного миома. Эти раки часто проявляются сложной историей здоровья и выраженной индивидуальностью гистологических структур. Для решения этой проблемы требуется новая методология, которая могла бы обеспечить обширную аналитическую способность и стабильность в классификации.
#### Метод
Мы предлагаем новую модель глубокого обучения на основе Vision Transformer (ViT), адаптированную для классификации гистологических изображений. Основная идея заключается в использовании методологии разбиения изображений на мозаичные плитки, которые потом переводятся в тензоры PyTorch и нормализуются для соответствия архитектуре ViT. Это решение позволяет уменьшить сложность традиционных методов, улучшить стабильность обучения и повысить точность классификации.
#### Результаты
Мы проверили модель на четырьмя различными датасетами: ICIAR2018 (молочная железа), SICAPv2 (простата), UT-Osteosarcoma (костное) и SipakMed (шейной). Наша модель демонстрирует выдающиеся результаты: 99.32% точности для молочной железы, 96.92% для простаты, 95.28% для костных раков и 96.94% для шейного миома. Результаты показывают высокую общую точность, что указывает на сильную значимость этой модели в расширении возможностей цифровой патологии.
#### Значимость
Модель HistoViT предлагает возможности для масштабируемого и многоклассового диагноза рака на основе гистологических изображений. Она может быть применена в различных патологических условиях для повышения точности диагностики, уменьшения риска ошибок и улучшения работы врачей. Особенно значимо её применение в области цифровой патологии, где скейлируемость и универсальность модели открывают новые перспективы в традиционных методах диагностики.
#### Выводы
Наша модель HistoViT демонстрирует перспективу в патологической диагностике, обеспечивая высокую точность и масштабируемость. Будущие исследования будут фокусироваться на расширении области применения, включении дополнительных датасетов и улучшении интеграции в клинический практический подход к диагностике рака.
Abstract
Accurate and scalable cancer diagnosis remains a critical challenge in modern
pathology, particularly for malignancies such as breast, prostate, bone, and
cervical, which exhibit complex histological variability. In this study, we
propose a transformer-based deep learning framework for multi-class tumor
classification in histopathological images. Leveraging a fine-tuned Vision
Transformer (ViT) architecture, our method addresses key limitations of
conventional convolutional neural networks, offering improved performance,
reduced preprocessing requirements, and enhanced scalability across tissue
types. To adapt the model for histopathological cancer images, we implement a
streamlined preprocessing pipeline that converts tiled whole-slide images into
PyTorch tensors and standardizes them through data normalization. This ensures
compatibility with the ViT architecture and enhances both convergence stability
and overall classification performance. We evaluate our model on four benchmark
datasets: ICIAR2018 (breast), SICAPv2 (prostate), UT-Osteosarcoma (bone), and
SipakMed (cervical) dataset -- demonstrating consistent outperformance over
existing deep learning methods. Our approach achieves classification accuracies
of 99.32%, 96.92%, 95.28%, and 96.94% for breast, prostate, bone, and cervical
cancers respectively, with area under the ROC curve (AUC) scores exceeding 99%
across all datasets. These results confirm the robustness, generalizability,
and clinical potential of transformer-based architectures in digital pathology.
Our work represents a significant advancement toward reliable, automated, and
interpretable cancer diagnosis systems that can alleviate diagnostic burdens
and improve healthcare outcomes.
Ссылки и действия
Дополнительные ресурсы: