Benchmarking Uncertainty and its Disentanglement in multi-label Chest X-Ray Classification
2508.04457v1
stat.ML, cs.LG
2025-08-09
Авторы:
Simon Baur, Wojciech Samek, Jackie Ma
Резюме на русском
Авторы рассматривают проблему достоверной оценки неопределенности в многометочечной классификации ЧЕХ-снимков, которая критична для надежного принятия решений в медицинской импедимографии. Основной акцент в статье делается на оценке прозрачности и способности моделей разделять эпистемическую и алеаторную неопределенность в различных многометочечных задачах. Для этого проводится бенчмарк 13 методов оценки неопределенности, включая традиционные и алтернативные подходы, на двух архитектурах (ResNet и Vision Transformer) с использованием датасета MIMIC-CXR-JPG. Авторы также расширяют подходы Evidential Deep Learning, HetClass NNs и Deep Deterministic Uncertainty для многометочечной классификации. Выводы работы подчеркивают различия методов и архитектур в эффективности оценки неопределенности и ее разделения, что позволяет выделить сильные и слабые стороны каждого подхода.
Abstract
Reliable uncertainty quantification is crucial for trustworthy
decision-making and the deployment of AI models in medical imaging. While prior
work has explored the ability of neural networks to quantify predictive,
epistemic, and aleatoric uncertainties using an information-theoretical
approach in synthetic or well defined data settings like natural image
classification, its applicability to real life medical diagnosis tasks remains
underexplored. In this study, we provide an extensive uncertainty
quantification benchmark for multi-label chest X-ray classification using the
MIMIC-CXR-JPG dataset. We evaluate 13 uncertainty quantification methods for
convolutional (ResNet) and transformer-based (Vision Transformer) architectures
across a wide range of tasks. Additionally, we extend Evidential Deep Learning,
HetClass NNs, and Deep Deterministic Uncertainty to the multi-label setting.
Our analysis provides insights into uncertainty estimation effectiveness and
the ability to disentangle epistemic and aleatoric uncertainties, revealing
method- and architecture-specific strengths and limitations.
Ссылки и действия
Дополнительные ресурсы: