Continual Multiple Instance Learning for Hematologic Disease Diagnosis
2508.04368v1
cs.LG, cs.CV, eess.IV, q-bio.QM
2025-08-09
Авторы:
Zahra Ebrahimi, Raheleh Salehi, Nassir Navab, Carsten Marr, Ario Sadafi
Резюме на русском
Целевая проблема заключается в неэффективности существующих методов непрерывного обучения (continual learning) при применении к задачам несупервизированного многоинстанционного обучения (multiple instance learning, MIL), которое широко используется в диагностике болезней крови, например, в определении лейкозей. Наша работа предлагает первый метод непрерывного обучения, оптимизированный специфически для MIL. Метод основывается на репетиции выборок (rehearsal), при которой выбираются отдельные инстанции из различных «мешков» (bags) на основе инстанций-аутентификаторов (instance attention scores) и их расстояний от среднего вектора класса и «мешка». Это позволяет эффективно сохранить разнообразие данных в памяти. Мы проверили эффективность на реальных данных лейкомии за один месяц, сравнив с трех известных методами непрерывного обучения. Наши результаты показали, что предложенный подход значительно превосходит их в производительности, устанавливая новую стандартную практику для непрерывного обучения в MIL.
Abstract
The dynamic environment of laboratories and clinics, with streams of data
arriving on a daily basis, requires regular updates of trained machine learning
models for consistent performance. Continual learning is supposed to help train
models without catastrophic forgetting. However, state-of-the-art methods are
ineffective for multiple instance learning (MIL), which is often used in
single-cell-based hematologic disease diagnosis (e.g., leukemia detection).
Here, we propose the first continual learning method tailored specifically to
MIL. Our method is rehearsal-based over a selection of single instances from
various bags. We use a combination of the instance attention score and distance
from the bag mean and class mean vectors to carefully select which samples and
instances to store in exemplary sets from previous tasks, preserving the
diversity of the data. Using the real-world input of one month of data from a
leukemia laboratory, we study the effectiveness of our approach in a class
incremental scenario, comparing it to well-known continual learning methods. We
show that our method considerably outperforms state-of-the-art methods,
providing the first continual learning approach for MIL. This enables the
adaptation of models to shifting data distributions over time, such as those
caused by changes in disease occurrence or underlying genetic alterations.