Deformable Attention Graph Representation Learning for Histopathology Whole Slide Image Analysis

2508.05382v1 cs.CV 2025-08-09
Авторы:

Mingxi Fu, Xitong Ling, Yuxuan Chen, Jiawen Li, fanglei fu, Huaitian Yuan, Tian Guan, Yonghong He, Lianghui Zhu

Резюме на русском

Определение классов в histopathology Whole Slide Images (WSIs) и Regions of Interest (ROIs) является важной проблемой в рамках компьютерной патологии. Основные подходы, основанные на Multiple Instance Learning (MIL), часто не могут трактовать пространственные зависимости между ткаческими структурами. Для решения этой проблемы модели на основе Graph Neural Networks (GNN) получили распространение, однако большинство из них используют статические графовые топологии, не учитывая физические координаты ткаческих патчей. Кроме того, традиционные механизмы аттенции недостаточно специфичны, что ограничивает возможности сетей акцентироваться на структурно важных регионах. Мы предлагаем новую модель GNN с deformable attention, которая построена на динамическом, взвешенном графе, где каждый узел аггрегирует контекстное представление из соседних узлов с использованием весов, определяемых специальным способом в соответствии с реальными координатами патчей. Это позволяет модели улучшить контекстное поле анализа и сохранить специфичность пространственных зависимостей. Мы проверили модель на четырех бенчмарк-датасетах, и она показала лучшие результаты, что демонстрирует силу deformable attention в решении задач, связанных с пространственными структурами в WSIs и ROIs.

Abstract

Accurate classification of Whole Slide Images (WSIs) and Regions of Interest (ROIs) is a fundamental challenge in computational pathology. While mainstream approaches often adopt Multiple Instance Learning (MIL), they struggle to capture the spatial dependencies among tissue structures. Graph Neural Networks (GNNs) have emerged as a solution to model inter-instance relationships, yet most rely on static graph topologies and overlook the physical spatial positions of tissue patches. Moreover, conventional attention mechanisms lack specificity, limiting their ability to focus on structurally relevant regions. In this work, we propose a novel GNN framework with deformable attention for pathology image analysis. We construct a dynamic weighted directed graph based on patch features, where each node aggregates contextual information from its neighbors via attention-weighted edges. Specifically, we incorporate learnable spatial offsets informed by the real coordinates of each patch, enabling the model to adaptively attend to morphologically relevant regions across the slide. This design significantly enhances the contextual field while preserving spatial specificity. Our framework achieves state-of-the-art performance on four benchmark datasets (TCGA-COAD, BRACS, gastric intestinal metaplasia grading, and intestinal ROI classification), demonstrating the power of deformable attention in capturing complex spatial structures in WSIs and ROIs.

Ссылки и действия