Clinical Uncertainty Impacts Machine Learning Evaluations
2509.22242v1
cs.AI, cs.CV, cs.LG
2025-09-30
Авторы:
Simone Lionetti, Fabian Gröger, Philippe Gottfrois, Alvaro Gonzalez-Jimenez, Ludovic Amruthalingam, Alexander A. Navarini, Marc Pouly
Резюме на русском
## Контекст
Оценка медицинских моделей машинного обучения часто базируется на методиках, не учитывающих переменность в метках аннотаций. Эти метки могут отличаться в результате разногласий между экспертами, незначительных различий в их опыте или отсутствия четкого стандарта оценки. Такая переменность, или неопределенность, приводит к неточностям в оценке качества моделей, особенно в задачах классификации и диагностики. Поэтому, необходимо разработать методы, которые учитывают этот аспект и позволяют более точно оценивать модели.
## Метод
Для учета неопределенности в метках используется модель многоклассовой классификации с вероятностными метками. Каждая метка получается посредством агрегирования взвешенных оценок экспертов, которые используются для построения вероятностного распределения для каждого класса. Для оценки модели вводятся показатели, которые учитывают не только точность, но и возможность ошибки, что дает более реалистичное представление о квалити алгоритма. Эта модель может быть применена к различным бинарным и многоклассовым задачам, а также к данным, полученным с различными методами аннотации.
## Результаты
В экспериментах были использованы данные из медицинских импедиций, включая системы зрения и кардиологии. Были сравнены результаты моделей, оцениваемых по традиционным методикам, и модели, учитывающих неопределенность в метках. Оказалось, что учитывая неопределенность, модели могут показать существенно другой порядок рейтингов, что отражает их реальное качество. Например, модели с высокой точностью, но недооценивающие вероятность ошибки, могут быть опущены в рейтинге при традиционных метриках, но будут выделяться при учете неопределенности.
## Значимость
Эти результаты показывают важность учета неопределенности при оценке моделей машинного обучения в медицине. Это позволяет получать более точные оценки качества моделей в реальных клинических условиях. Благодаря этому, могут быть избежаны ошибки в принятии решений, которые могут иметь серьезные последствия для пациентов. Также, это может способствовать развитию новых методов аннотации, учитывающих не только исходное состояние данных, но и доверие к меткам.
## Выводы
Оценка качества моделей машинного обучения в медицине должна учитывать неопределенность в метках. Использование вероятностных метрик позволяет получать более точные результаты и улучшает безопасность и эффективность применения моделей в клинических задачах. Будущие исследования должны сосредоточиться на разработке более сложных моделей, учитывающих не только неопределенность в метках, но и неопределен
Abstract
Clinical dataset labels are rarely certain as annotators disagree and
confidence is not uniform across cases. Typical aggregation procedures, such as
majority voting, obscure this variability. In simple experiments on medical
imaging benchmarks, accounting for the confidence in binary labels
significantly impacts model rankings. We therefore argue that machine-learning
evaluations should explicitly account for annotation uncertainty using
probabilistic metrics that directly operate on distributions. These metrics can
be applied independently of the annotations' generating process, whether
modeled by simple counting, subjective confidence ratings, or probabilistic
response models. They are also computationally lightweight, as closed-form
expressions have linear-time implementations once examples are sorted by model
score. We thus urge the community to release raw annotations for datasets and
to adopt uncertainty-aware evaluation so that performance estimates may better
reflect clinical data.
Ссылки и действия
Дополнительные ресурсы: