AHDMIL: Asymmetric Hierarchical Distillation Multi-Instance Learning for Fast and Accurate Whole-Slide Image Classification
2508.05114v1
cs.CV
2025-08-09
Авторы:
Jiuyang Dong, Jiahan Li, Junjun Jiang, Kui Jiang, Yongbing Zhang
Резюме на русском
В статье предлагается AHDMIL, новая асимметричная архитектура для классификации целостных слайдов (WSI), основанная на многоинстансном обучении (MIL). Основная проблема заключается в высоких затратах на вывод при использовании стандартных схем MIL, которые требуют обработки тысяч патчей из гигапиксельных WSI. AHDMIL уменьшает эти затраты, используя два этапа обучения: самостоятельную дистилляцию (SD) для верхнего уровня и асимметричную дистилляцию (AD) для нижнего. Динамическая сеть для многоинстансной обработки (DMIN) обрабатывает высокорезольвентные слайды, в том числе с помощью модели Chebyshev-полином-based Kolmogorov-Arnold (CKA), обеспечивающей лучшую классификационную точность. Лёгкая сеть для предварительного отбора инстансов (DB-LIPN) отсеивает нерелевантные патчи на низкой резольвенции. Эксперименты на четырёх датасетах показали, что AHDMIL обеспечивает повышение точности (до 5.3%) и ускорение вывода (1.2–2.1 раза) по сравнению с современными методами. Реализация доступна для исследований.
Abstract
Although multi-instance learning (MIL) has succeeded in pathological image
classification, it faces the challenge of high inference costs due to the need
to process thousands of patches from each gigapixel whole slide image (WSI). To
address this, we propose AHDMIL, an Asymmetric Hierarchical Distillation
Multi-Instance Learning framework that enables fast and accurate classification
by eliminating irrelevant patches through a two-step training process. AHDMIL
comprises two key components: the Dynamic Multi-Instance Network (DMIN), which
operates on high-resolution WSIs, and the Dual-Branch Lightweight Instance
Pre-screening Network (DB-LIPN), which analyzes corresponding low-resolution
counterparts. In the first step, self-distillation (SD), DMIN is trained for
WSI classification while generating per-instance attention scores to identify
irrelevant patches. These scores guide the second step, asymmetric distillation
(AD), where DB-LIPN learns to predict the relevance of each low-resolution
patch. The relevant patches predicted by DB-LIPN have spatial correspondence
with patches in high-resolution WSIs, which are used for fine-tuning and
efficient inference of DMIN. In addition, we design the first
Chebyshev-polynomial-based Kolmogorov-Arnold (CKA) classifier in computational
pathology, which improves classification performance through learnable
activation layers. Extensive experiments on four public datasets demonstrate
that AHDMIL consistently outperforms previous state-of-the-art methods in both
classification performance and inference speed. For example, on the Camelyon16
dataset, it achieves a relative improvement of 5.3% in accuracy and accelerates
inference by 1.2.times. Across all datasets, area under the curve (AUC),
accuracy, f1 score, and brier score show consistent gains, with average
inference speedups ranging from 1.2 to 2.1 times. The code is available.
Ссылки и действия
Дополнительные ресурсы: