Efficient Breast and Ovarian Cancer Classification via ViT-Based Preprocessing and Transfer Learning
2509.18553v1
eess.IV, cs.CV, cs.LG
2025-09-25
Авторы:
Richa Rawat, Faisal Ahmed
Резюме на русском
## Контекст
Актуальность исследований в области раннего диагноза рака груди и овариям бесценна, так как эти заболевания находятся среди ведущих причин смертности у женщин. Несмотря на развитие медицинских технологий, существуют значительные проблемы, связанные с трудоемкостью и ресурсоемкостью традиционных методов диагностики. Традиционные подходы, основанные на ручном анализе импедиангов, компьютеризированных томографий и ультразвуковых изображений, требуют долгого времени и специализированных профессионалов. В этой статье предлагается использовать архитектуру Vision Transformer (ViT) для развития более эффективного метода классификации этих онкологических заболеваний. Технология ViT обеспечивает более точный и автоматизированный процесс диагностики, что сокращает время реагирования и повышает точность диагноза.
## Метод
Для разработки метода классификации используется Vision Transformer с предобученной моделью ViT-Base-Patch16-224, которая адаптируется для классификации изображений на выборки BreakHis (для бинарной классификации) и UBC-OCEAN (для классификации на пять классов). Изображения вводятся в специальный препроцессинг-процесс, который преобразует импедианговые изображения в стандартизированные PyTorch-тензоры. Этот метод позволяет использовать ViT с меньшим временем обучения и повышенной точностью. Использование предобученной модели ViT существенно сокращает время обучения и позволяет достичь более высокой точности, чем при использовании традиционных CNN-моделей. Для обучения и тестирования использованы данные, которые не были предварительно усложнены с помощью аугментации.
## Результаты
Проведенные эксперименты показали, что модель ViT-based превосходит в точности многие другие методы, включая CNN, ViT и данные, основанные на топологических данных, в бинарной классификации. Для классификации на пять классов, модель ViT-based показала высокую эффективность в сравнении с топологическими методами, использовавшимися ранее. Этот подход удалось повысить точность диагностики за счет точной препроцессинг-процедуры и предобученной модели ViT. Таким образом, эта модель демонстрирует значительное повышение точности классификации в сравнении с другими конкурентными алгоритмами.
## Значимость
Результаты этого исследования имеют важное значение в области медицинских исследований, так как они позволяют существенно улучшить процесс классификации рака груди и оварий. Модель ViT-based может быть применена в различных областях, включая нейронные сети для диагностики и терапии рака. Улучшение точности диагностики может привести к более быстрому и то
Abstract
Cancer is one of the leading health challenges for women, specifically breast
and ovarian cancer. Early detection can help improve the survival rate through
timely intervention and treatment. Traditional methods of detecting cancer
involve manually examining mammograms, CT scans, ultrasounds, and other imaging
types. However, this makes the process labor-intensive and requires the
expertise of trained pathologists. Hence, making it both time-consuming and
resource-intensive. In this paper, we introduce a novel vision transformer
(ViT)-based method for detecting and classifying breast and ovarian cancer. We
use a pre-trained ViT-Base-Patch16-224 model, which is fine-tuned for both
binary and multi-class classification tasks using publicly available
histopathological image datasets. Further, we use a preprocessing pipeline that
converts raw histophological images into standardized PyTorch tensors, which
are compatible with the ViT architecture and also help improve the model
performance. We evaluated the performance of our model on two benchmark
datasets: the BreakHis dataset for binary classification and the UBC-OCEAN
dataset for five-class classification without any data augmentation. Our model
surpasses existing CNN, ViT, and topological data analysis-based approaches in
binary classification. For multi-class classification, it is evaluated against
recent topological methods and demonstrates superior performance. Our study
highlights the effectiveness of Vision Transformer-based transfer learning
combined with efficient preprocessing in oncological diagnostics.
Ссылки и действия
Дополнительные ресурсы: