AHDMIL: Asymmetric Hierarchical Distillation Multi-Instance Learning for Fast and Accurate Whole-Slide Image Classification

2508.05114v1 cs.CV 2025-08-09
Авторы:

Jiuyang Dong, Jiahan Li, Junjun Jiang, Kui Jiang, Yongbing Zhang

Резюме на русском

В статье предлагается AHDMIL, новая асимметричная архитектура для классификации целостных слайдов (WSI), основанная на многоинстансном обучении (MIL). Основная проблема заключается в высоких затратах на вывод при использовании стандартных схем MIL, которые требуют обработки тысяч патчей из гигапиксельных WSI. AHDMIL уменьшает эти затраты, используя два этапа обучения: самостоятельную дистилляцию (SD) для верхнего уровня и асимметричную дистилляцию (AD) для нижнего. Динамическая сеть для многоинстансной обработки (DMIN) обрабатывает высокорезольвентные слайды, в том числе с помощью модели Chebyshev-полином-based Kolmogorov-Arnold (CKA), обеспечивающей лучшую классификационную точность. Лёгкая сеть для предварительного отбора инстансов (DB-LIPN) отсеивает нерелевантные патчи на низкой резольвенции. Эксперименты на четырёх датасетах показали, что AHDMIL обеспечивает повышение точности (до 5.3%) и ускорение вывода (1.2–2.1 раза) по сравнению с современными методами. Реализация доступна для исследований.

Abstract

Although multi-instance learning (MIL) has succeeded in pathological image classification, it faces the challenge of high inference costs due to the need to process thousands of patches from each gigapixel whole slide image (WSI). To address this, we propose AHDMIL, an Asymmetric Hierarchical Distillation Multi-Instance Learning framework that enables fast and accurate classification by eliminating irrelevant patches through a two-step training process. AHDMIL comprises two key components: the Dynamic Multi-Instance Network (DMIN), which operates on high-resolution WSIs, and the Dual-Branch Lightweight Instance Pre-screening Network (DB-LIPN), which analyzes corresponding low-resolution counterparts. In the first step, self-distillation (SD), DMIN is trained for WSI classification while generating per-instance attention scores to identify irrelevant patches. These scores guide the second step, asymmetric distillation (AD), where DB-LIPN learns to predict the relevance of each low-resolution patch. The relevant patches predicted by DB-LIPN have spatial correspondence with patches in high-resolution WSIs, which are used for fine-tuning and efficient inference of DMIN. In addition, we design the first Chebyshev-polynomial-based Kolmogorov-Arnold (CKA) classifier in computational pathology, which improves classification performance through learnable activation layers. Extensive experiments on four public datasets demonstrate that AHDMIL consistently outperforms previous state-of-the-art methods in both classification performance and inference speed. For example, on the Camelyon16 dataset, it achieves a relative improvement of 5.3% in accuracy and accelerates inference by 1.2.times. Across all datasets, area under the curve (AUC), accuracy, f1 score, and brier score show consistent gains, with average inference speedups ranging from 1.2 to 2.1 times. The code is available.

Ссылки и действия