Efficient Breast and Ovarian Cancer Classification via ViT-Based Preprocessing and Transfer Learning

2509.18553v1 eess.IV, cs.CV, cs.LG 2025-09-25
Авторы:

Richa Rawat, Faisal Ahmed

Резюме на русском

## Контекст Актуальность исследований в области раннего диагноза рака груди и овариям бесценна, так как эти заболевания находятся среди ведущих причин смертности у женщин. Несмотря на развитие медицинских технологий, существуют значительные проблемы, связанные с трудоемкостью и ресурсоемкостью традиционных методов диагностики. Традиционные подходы, основанные на ручном анализе импедиангов, компьютеризированных томографий и ультразвуковых изображений, требуют долгого времени и специализированных профессионалов. В этой статье предлагается использовать архитектуру Vision Transformer (ViT) для развития более эффективного метода классификации этих онкологических заболеваний. Технология ViT обеспечивает более точный и автоматизированный процесс диагностики, что сокращает время реагирования и повышает точность диагноза. ## Метод Для разработки метода классификации используется Vision Transformer с предобученной моделью ViT-Base-Patch16-224, которая адаптируется для классификации изображений на выборки BreakHis (для бинарной классификации) и UBC-OCEAN (для классификации на пять классов). Изображения вводятся в специальный препроцессинг-процесс, который преобразует импедианговые изображения в стандартизированные PyTorch-тензоры. Этот метод позволяет использовать ViT с меньшим временем обучения и повышенной точностью. Использование предобученной модели ViT существенно сокращает время обучения и позволяет достичь более высокой точности, чем при использовании традиционных CNN-моделей. Для обучения и тестирования использованы данные, которые не были предварительно усложнены с помощью аугментации. ## Результаты Проведенные эксперименты показали, что модель ViT-based превосходит в точности многие другие методы, включая CNN, ViT и данные, основанные на топологических данных, в бинарной классификации. Для классификации на пять классов, модель ViT-based показала высокую эффективность в сравнении с топологическими методами, использовавшимися ранее. Этот подход удалось повысить точность диагностики за счет точной препроцессинг-процедуры и предобученной модели ViT. Таким образом, эта модель демонстрирует значительное повышение точности классификации в сравнении с другими конкурентными алгоритмами. ## Значимость Результаты этого исследования имеют важное значение в области медицинских исследований, так как они позволяют существенно улучшить процесс классификации рака груди и оварий. Модель ViT-based может быть применена в различных областях, включая нейронные сети для диагностики и терапии рака. Улучшение точности диагностики может привести к более быстрому и то

Abstract

Cancer is one of the leading health challenges for women, specifically breast and ovarian cancer. Early detection can help improve the survival rate through timely intervention and treatment. Traditional methods of detecting cancer involve manually examining mammograms, CT scans, ultrasounds, and other imaging types. However, this makes the process labor-intensive and requires the expertise of trained pathologists. Hence, making it both time-consuming and resource-intensive. In this paper, we introduce a novel vision transformer (ViT)-based method for detecting and classifying breast and ovarian cancer. We use a pre-trained ViT-Base-Patch16-224 model, which is fine-tuned for both binary and multi-class classification tasks using publicly available histopathological image datasets. Further, we use a preprocessing pipeline that converts raw histophological images into standardized PyTorch tensors, which are compatible with the ViT architecture and also help improve the model performance. We evaluated the performance of our model on two benchmark datasets: the BreakHis dataset for binary classification and the UBC-OCEAN dataset for five-class classification without any data augmentation. Our model surpasses existing CNN, ViT, and topological data analysis-based approaches in binary classification. For multi-class classification, it is evaluated against recent topological methods and demonstrates superior performance. Our study highlights the effectiveness of Vision Transformer-based transfer learning combined with efficient preprocessing in oncological diagnostics.

Ссылки и действия