Performance of Conformal Prediction in Capturing Aleatoric Uncertainty

2509.05826v1 cs.LG, cs.CV 2025-09-10
Авторы:

Misgina Tsighe Hagos, Claes Lundström

Резюме на русском

## Контекст Современные методы алгоритмов машинного обучения часто сталкиваются с проблемой неопределенности в данных, особенно когда классы пересекаются или присутствуют неопределенности в тегах, присущие классическим базисным алгоритмам. Эта неопределенность, известная как алеаторская неопределенность, часто не учитывается в моделях машинного обучения. Несмотря на развитие методов управления такой неопределенностью, существуют ограничения в моделях, которые могут повлиять на их достоверность. Одним из подходов, предлагающим решение для оценки неопределенности, является **Conformal Prediction (CP)**, призванный предоставлять надежные оценки неопределенности в предсказаниях. Однако, несмотря на это, недостаточно ясно, насколько эффективно CP при использовании в реальных задачах многоклассовой классификации, где классы часто пересекаются. Таким образом, целью данного исследования является оценка способности CP к оценке алеаторской неопределенности в таких задачах. ## Метод В рамках данного исследования было использовано **два этапа оценки** для анализа способности CP к оценке алеаторской неопределенности. В первом этапе были сравнивали размеры предсказательных множеств, создаваемых CP, с числом различных тегов, присвоенных каждой записи в тестовой выборке человеком. На основе этой информации была вычислена **корреляция** между размером множеств и числом различных тегов. Это позволяло определить, насколько влияет размер предсказательного множества на оценку неопределенности. Во втором этапе были проведены **метрики сходства**, где размеры множеств CP были сравнивали с множествами тегов, присвоенных человеком. Эти метрики позволяли измерить степень перекрытия множеств CP с тегами, присвоенными человеком. Использовались **три реализации CP**, работающие с **8 моделями глубокого обучения** и **4 различными датасетов**, содержащими теги, присвоенные несколькими человеками (от 5 до 50 участников на каждую запись). ## Результаты Из размеров множеств CP, сгенерированных для 8 моделей, было выявлено, что **95% размеров предсказательных множеств относительно незначительно или слабо коррелируют** с числом различных тегов, присвоенных человеком. Только **5% размеров предсказательных множеств** имели **умеренную корреляцию** с числом тегов. Это показывает, что CP не всегда эффективно оценивает алеаторскую неопределенность. Кроме того, **метрики сходства** показали, что размеры множеств CP часто **не сильно отличаются от человеческих тегов**, но при этом однозначное преобладание одного из подходов не было выявлено. Таким образом, CP может дать достаточно **широкое множество**, но

Abstract

Conformal prediction is a model-agnostic approach to generating prediction sets that cover the true class with a high probability. Although its prediction set size is expected to capture aleatoric uncertainty, there is a lack of evidence regarding its effectiveness. The literature presents that prediction set size can upper-bound aleatoric uncertainty or that prediction sets are larger for difficult instances and smaller for easy ones, but a validation of this attribute of conformal predictors is missing. This work investigates how effectively conformal predictors quantify aleatoric uncertainty, specifically the inherent ambiguity in datasets caused by overlapping classes. We perform this by measuring the correlation between prediction set sizes and the number of distinct labels assigned by human annotators per instance. We further assess the similarity between prediction sets and human-provided annotations. We use three conformal prediction approaches to generate prediction sets for eight deep learning models trained on four datasets. The datasets contain annotations from multiple human annotators (ranging from five to fifty participants) per instance, enabling the identification of class overlap. We show that the vast majority of the conformal prediction outputs show a very weak to weak correlation with human annotations, with only a few showing moderate correlation. These findings underscore the necessity of critically reassessing the prediction sets generated using conformal predictors. While they can provide a higher coverage of the true classes, their capability in capturing aleatoric uncertainty remains limited.

Ссылки и действия