Performance of Conformal Prediction in Capturing Aleatoric Uncertainty
2509.05826v1
cs.LG, cs.CV
2025-09-10
Авторы:
Misgina Tsighe Hagos, Claes Lundström
Резюме на русском
## Контекст
Современные методы алгоритмов машинного обучения часто сталкиваются с проблемой неопределенности в данных, особенно когда классы пересекаются или присутствуют неопределенности в тегах, присущие классическим базисным алгоритмам. Эта неопределенность, известная как алеаторская неопределенность, часто не учитывается в моделях машинного обучения. Несмотря на развитие методов управления такой неопределенностью, существуют ограничения в моделях, которые могут повлиять на их достоверность. Одним из подходов, предлагающим решение для оценки неопределенности, является **Conformal Prediction (CP)**, призванный предоставлять надежные оценки неопределенности в предсказаниях. Однако, несмотря на это, недостаточно ясно, насколько эффективно CP при использовании в реальных задачах многоклассовой классификации, где классы часто пересекаются. Таким образом, целью данного исследования является оценка способности CP к оценке алеаторской неопределенности в таких задачах.
## Метод
В рамках данного исследования было использовано **два этапа оценки** для анализа способности CP к оценке алеаторской неопределенности. В первом этапе были сравнивали размеры предсказательных множеств, создаваемых CP, с числом различных тегов, присвоенных каждой записи в тестовой выборке человеком. На основе этой информации была вычислена **корреляция** между размером множеств и числом различных тегов. Это позволяло определить, насколько влияет размер предсказательного множества на оценку неопределенности. Во втором этапе были проведены **метрики сходства**, где размеры множеств CP были сравнивали с множествами тегов, присвоенных человеком. Эти метрики позволяли измерить степень перекрытия множеств CP с тегами, присвоенными человеком. Использовались **три реализации CP**, работающие с **8 моделями глубокого обучения** и **4 различными датасетов**, содержащими теги, присвоенные несколькими человеками (от 5 до 50 участников на каждую запись).
## Результаты
Из размеров множеств CP, сгенерированных для 8 моделей, было выявлено, что **95% размеров предсказательных множеств относительно незначительно или слабо коррелируют** с числом различных тегов, присвоенных человеком. Только **5% размеров предсказательных множеств** имели **умеренную корреляцию** с числом тегов. Это показывает, что CP не всегда эффективно оценивает алеаторскую неопределенность. Кроме того, **метрики сходства** показали, что размеры множеств CP часто **не сильно отличаются от человеческих тегов**, но при этом однозначное преобладание одного из подходов не было выявлено. Таким образом, CP может дать достаточно **широкое множество**, но
Abstract
Conformal prediction is a model-agnostic approach to generating prediction
sets that cover the true class with a high probability. Although its prediction
set size is expected to capture aleatoric uncertainty, there is a lack of
evidence regarding its effectiveness. The literature presents that prediction
set size can upper-bound aleatoric uncertainty or that prediction sets are
larger for difficult instances and smaller for easy ones, but a validation of
this attribute of conformal predictors is missing. This work investigates how
effectively conformal predictors quantify aleatoric uncertainty, specifically
the inherent ambiguity in datasets caused by overlapping classes. We perform
this by measuring the correlation between prediction set sizes and the number
of distinct labels assigned by human annotators per instance. We further assess
the similarity between prediction sets and human-provided annotations. We use
three conformal prediction approaches to generate prediction sets for eight
deep learning models trained on four datasets. The datasets contain annotations
from multiple human annotators (ranging from five to fifty participants) per
instance, enabling the identification of class overlap. We show that the vast
majority of the conformal prediction outputs show a very weak to weak
correlation with human annotations, with only a few showing moderate
correlation. These findings underscore the necessity of critically reassessing
the prediction sets generated using conformal predictors. While they can
provide a higher coverage of the true classes, their capability in capturing
aleatoric uncertainty remains limited.
Ссылки и действия
Дополнительные ресурсы: