Benchmarking Foundation Models for Mitotic Figure Classification
2508.04441v1
cs.CV
2025-08-09
Авторы:
Jonas Ammeling, Jonathan Ganz, Emely Rosbach, Ludwig Lausser, Christof A. Bertram, Katharina Breininger, Marc Aubreville
Резюме на русском
**Резюме**
В публикации проводится оценка возможностей фундаментальных моделей в классификации митотических фигур, критичных для оценки прогноза рака. Эти модели, обученные с помощью самостоятельного обучения, обладают богатыми семантическими признаками и показывают высокую гибкость при решении новых задач с минимальными изменениями. Исследование анализирует свойства данных и эффективность различных подходов к адаптации моделей, включая линейную пробуждение и метод LoRA для адаптации внимательных механизмов. Основной вывод: адаптация моделей с помощью LoRA позволяет достичь высокой точности с минимальным объемом данных обучения (10% от полного объема) и почти либо полностью (95%) уменьшить разрыв производительности при использовании незнакомых доменов данных. Тем не менее, полная тюнинг подтвердил высокую конкурентоспособность традиционных архитектур, таких как CNN и Vision Transformers.
Abstract
The performance of deep learning models is known to scale with data quantity
and diversity. In pathology, as in many other medical imaging domains, the
availability of labeled images for a specific task is often limited.
Self-supervised learning techniques have enabled the use of vast amounts of
unlabeled data to train large-scale neural networks, i.e., foundation models,
that can address the limited data problem by providing semantically rich
feature vectors that can generalize well to new tasks with minimal training
effort increasing model performance and robustness. In this work, we
investigate the use of foundation models for mitotic figure classification. The
mitotic count, which can be derived from this classification task, is an
independent prognostic marker for specific tumors and part of certain tumor
grading systems. In particular, we investigate the data scaling laws on
multiple current foundation models and evaluate their robustness to unseen
tumor domains. Next to the commonly used linear probing paradigm, we also adapt
the models using low-rank adaptation (LoRA) of their attention mechanisms. We
compare all models against end-to-end-trained baselines, both CNNs and Vision
Transformers. Our results demonstrate that LoRA-adapted foundation models
provide superior performance to those adapted with standard linear probing,
reaching performance levels close to 100% data availability with only 10% of
training data. Furthermore, LoRA-adaptation of the most recent foundation
models almost closes the out-of-domain performance gap when evaluated on unseen
tumor domains. However, full fine-tuning of traditional architectures still
yields competitive performance.
Ссылки и действия
Дополнительные ресурсы: