Clinical Uncertainty Impacts Machine Learning Evaluations

2509.22242v1 cs.AI, cs.CV, cs.LG 2025-09-30
Авторы:

Simone Lionetti, Fabian Gröger, Philippe Gottfrois, Alvaro Gonzalez-Jimenez, Ludovic Amruthalingam, Alexander A. Navarini, Marc Pouly

Резюме на русском

## Контекст Оценка медицинских моделей машинного обучения часто базируется на методиках, не учитывающих переменность в метках аннотаций. Эти метки могут отличаться в результате разногласий между экспертами, незначительных различий в их опыте или отсутствия четкого стандарта оценки. Такая переменность, или неопределенность, приводит к неточностям в оценке качества моделей, особенно в задачах классификации и диагностики. Поэтому, необходимо разработать методы, которые учитывают этот аспект и позволяют более точно оценивать модели. ## Метод Для учета неопределенности в метках используется модель многоклассовой классификации с вероятностными метками. Каждая метка получается посредством агрегирования взвешенных оценок экспертов, которые используются для построения вероятностного распределения для каждого класса. Для оценки модели вводятся показатели, которые учитывают не только точность, но и возможность ошибки, что дает более реалистичное представление о квалити алгоритма. Эта модель может быть применена к различным бинарным и многоклассовым задачам, а также к данным, полученным с различными методами аннотации. ## Результаты В экспериментах были использованы данные из медицинских импедиций, включая системы зрения и кардиологии. Были сравнены результаты моделей, оцениваемых по традиционным методикам, и модели, учитывающих неопределенность в метках. Оказалось, что учитывая неопределенность, модели могут показать существенно другой порядок рейтингов, что отражает их реальное качество. Например, модели с высокой точностью, но недооценивающие вероятность ошибки, могут быть опущены в рейтинге при традиционных метриках, но будут выделяться при учете неопределенности. ## Значимость Эти результаты показывают важность учета неопределенности при оценке моделей машинного обучения в медицине. Это позволяет получать более точные оценки качества моделей в реальных клинических условиях. Благодаря этому, могут быть избежаны ошибки в принятии решений, которые могут иметь серьезные последствия для пациентов. Также, это может способствовать развитию новых методов аннотации, учитывающих не только исходное состояние данных, но и доверие к меткам. ## Выводы Оценка качества моделей машинного обучения в медицине должна учитывать неопределенность в метках. Использование вероятностных метрик позволяет получать более точные результаты и улучшает безопасность и эффективность применения моделей в клинических задачах. Будущие исследования должны сосредоточиться на разработке более сложных моделей, учитывающих не только неопределенность в метках, но и неопределен

Abstract

Clinical dataset labels are rarely certain as annotators disagree and confidence is not uniform across cases. Typical aggregation procedures, such as majority voting, obscure this variability. In simple experiments on medical imaging benchmarks, accounting for the confidence in binary labels significantly impacts model rankings. We therefore argue that machine-learning evaluations should explicitly account for annotation uncertainty using probabilistic metrics that directly operate on distributions. These metrics can be applied independently of the annotations' generating process, whether modeled by simple counting, subjective confidence ratings, or probabilistic response models. They are also computationally lightweight, as closed-form expressions have linear-time implementations once examples are sorted by model score. We thus urge the community to release raw annotations for datasets and to adopt uncertainty-aware evaluation so that performance estimates may better reflect clinical data.

Ссылки и действия