Multi-Scale Deep Learning for Colon Histopathology: A Hybrid Graph-Transformer Approach

2509.02851v1 cs.CV, cs.LG 2025-09-05
Авторы:

Sadra Saremi, Amirhossein Ahmadkhan Kordbacheh

Резюме на русском

## Контекст Колоректальный рак (рак кишечника и ректала) является одной из наиболее злокачественных форм рака в мире. Основной приоритет в борьбе с этим заболеванием является раннее выявление, так как это существенно повышает шансы на успешное лечение. Существующие методы диагностики часто страдают от недостатка точности или требуют долгого времени для оценки образцов. Это сподвигло развитие методов автоматической классификации, которые могут обрабатывать большие объемы данных и обеспечивать более точные прогнозы. В этом контексте предлагается новая гибридная многомерная структура, которая объединяет мощь трансформерных моделей и сверточных нейронных сетей. Целью является повышение точности диагностики и улучшение понимания структуры и отношений в изображениях гистопатологии. ## Метод Предлагаемая модель, названная **HG-TNet**, является гибридной структурой, которая объединяет сильные стороны трансформеров и сверточных нейронных сетей. Модель включает две основные сети: 1. **Transformer Branch**: Основная цель этой ветви — получить глобальные контекстные связи, используя разбиение изображения на патчи с помощью конвертирования патчей с помощью сверточных элементов. Эти патчи обрабатываются в контекстно-зависимой модели трансформера. 2. **CNN Branch**: Данная ветвь фокусируется на локальных деталях изображения, используя последовательный анализ в несколько слоев сверток. Кроме того, в модели включена целевая подсистема самостоятельного обучения на основе предсказания поворота изображений. Эта особенность позволяет модели сохранять пространственные отношения и учитывать отдельный вклад каждого элемента в создании общей структуры. ## Результаты Модель была тренирована и протестирована на базе выборки **LC25000** — датасета изображений гистопатологии колоректального рака. На экспериментальных задачах классификации сравнили количество ошибок, точность и потери. Результаты показали, что **HG-TNet** превосходит стандартные архитектуры по всем метрикам. Специальное внимание было уделено пространственной структуре изображений. **Capsule Networks**, интегрированные в модель, позволили улучшить восприятие составляющих частей изображения и их интеракции в целом. ## Значимость Новая модель может быть применена в автоматической диагностике и мониторинге колоректального рака, обеспечивая более точные результаты и уменьшая время оценки. Гибридная архитектура обеспечивает более глубокое понимание изображений и может быть распространена на другие задачи медицинской изображейной обработки. ## Выводы Результаты эк

Abstract

Colon cancer also known as Colorectal cancer, is one of the most malignant types of cancer worldwide. Early-stage detection of colon cancer is highly crucial to prevent its deterioration. This research presents a hybrid multi-scale deep learning architecture that synergizes capsule networks, graph attention mechanisms, transformer modules, and residual learning to advance colon cancer classification on the Lung and Colon Cancer Histopathological Image Dataset (LC25000) dataset. The proposed model in this paper utilizes the HG-TNet model that introduces a hybrid architecture that joins strength points in transformers and convolutional neural networks to capture multi-scale features in histopathological images. Mainly, a transformer branch extracts global contextual bonds by partitioning the image into patches by convolution-based patch embedding and then processing these patches through a transformer encoder. Analogously, a dedicated CNN branch captures fine-grained, local details through successive Incorporation these diverse features, combined with a self-supervised rotation prediction objective, produce a robust diagnostic representation that surpasses standard architectures in performance. Results show better performance not only in accuracy or loss function but also in these algorithms by utilizing capsule networks to preserve spatial orders and realize how each element individually combines and forms whole structures.

Ссылки и действия