Deformable Attention Graph Representation Learning for Histopathology Whole Slide Image Analysis
2508.05382v1
cs.CV
2025-08-09
Авторы:
Mingxi Fu, Xitong Ling, Yuxuan Chen, Jiawen Li, fanglei fu, Huaitian Yuan, Tian Guan, Yonghong He, Lianghui Zhu
Резюме на русском
Определение классов в histopathology Whole Slide Images (WSIs) и Regions of Interest (ROIs) является важной проблемой в рамках компьютерной патологии. Основные подходы, основанные на Multiple Instance Learning (MIL), часто не могут трактовать пространственные зависимости между ткаческими структурами. Для решения этой проблемы модели на основе Graph Neural Networks (GNN) получили распространение, однако большинство из них используют статические графовые топологии, не учитывая физические координаты ткаческих патчей. Кроме того, традиционные механизмы аттенции недостаточно специфичны, что ограничивает возможности сетей акцентироваться на структурно важных регионах. Мы предлагаем новую модель GNN с deformable attention, которая построена на динамическом, взвешенном графе, где каждый узел аггрегирует контекстное представление из соседних узлов с использованием весов, определяемых специальным способом в соответствии с реальными координатами патчей. Это позволяет модели улучшить контекстное поле анализа и сохранить специфичность пространственных зависимостей. Мы проверили модель на четырех бенчмарк-датасетах, и она показала лучшие результаты, что демонстрирует силу deformable attention в решении задач, связанных с пространственными структурами в WSIs и ROIs.
Abstract
Accurate classification of Whole Slide Images (WSIs) and Regions of Interest
(ROIs) is a fundamental challenge in computational pathology. While mainstream
approaches often adopt Multiple Instance Learning (MIL), they struggle to
capture the spatial dependencies among tissue structures. Graph Neural Networks
(GNNs) have emerged as a solution to model inter-instance relationships, yet
most rely on static graph topologies and overlook the physical spatial
positions of tissue patches. Moreover, conventional attention mechanisms lack
specificity, limiting their ability to focus on structurally relevant regions.
In this work, we propose a novel GNN framework with deformable attention for
pathology image analysis. We construct a dynamic weighted directed graph based
on patch features, where each node aggregates contextual information from its
neighbors via attention-weighted edges. Specifically, we incorporate learnable
spatial offsets informed by the real coordinates of each patch, enabling the
model to adaptively attend to morphologically relevant regions across the
slide. This design significantly enhances the contextual field while preserving
spatial specificity. Our framework achieves state-of-the-art performance on
four benchmark datasets (TCGA-COAD, BRACS, gastric intestinal metaplasia
grading, and intestinal ROI classification), demonstrating the power of
deformable attention in capturing complex spatial structures in WSIs and ROIs.
Ссылки и действия
Дополнительные ресурсы: