## Контекст
Современные методы алгоритмов машинного обучения часто сталкиваются с проблемой неопределенности в данных, особенно когда классы пересекаются или присутствуют неопределенности в тегах, присущие классическим базисным алгоритмам. Эта неопределенность, известная как алеаторская неопределенность, часто не учитывается в моделях машинного обучения. Несмотря на развитие методов управления такой неопределенностью, существуют ограничения в моделях, которые могут повлиять на их достоверность. Одним из подходов, предлагающим решение для оценки неопределенности, является **Conformal Prediction (CP)**, призванный предоставлять надежные оценки неопределенности в предсказаниях. Однако, несмотря на это, недостаточно ясно, насколько эффективно CP при использовании в реальных задачах многоклассовой классификации, где классы часто пересекаются. Таким образом, целью данного исследования является оценка способности CP к оценке алеаторской неопределенности в таких задачах.
## Метод
В рамках данного исследования было использовано **два этапа оценки** для анализа способности CP к оценке алеаторской неопределенности. В первом этапе были сравнивали размеры предсказательных множеств, создаваемых CP, с числом различных тегов, присвоенных каждой записи в тестовой выборке человеком. На основе этой информации была вычислена **корреляция** между размером множеств и числом различных тегов. Это позволяло определить, насколько влияет размер предсказательного множества на оценку неопределенности. Во втором этапе были проведены **метрики сходства**, где размеры множеств CP были сравнивали с множествами тегов, присвоенных человеком. Эти метрики позволяли измерить степень перекрытия множеств CP с тегами, присвоенными человеком. Использовались **три реализации CP**, работающие с **8 моделями глубокого обучения** и **4 различными датасетов**, содержащими теги, присвоенные несколькими человеками (от 5 до 50 участников на каждую запись).
## Результаты
Из размеров множеств CP, сгенерированных для 8 моделей, было выявлено, что **95% размеров предсказательных множеств относительно незначительно или слабо коррелируют** с числом различных тегов, присвоенных человеком. Только **5% размеров предсказательных множеств** имели **умеренную корреляцию** с числом тегов. Это показывает, что CP не всегда эффективно оценивает алеаторскую неопределенность. Кроме того, **метрики сходства** показали, что размеры множеств CP часто **не сильно отличаются от человеческих тегов**, но при этом однозначное преобладание одного из подходов не было выявлено. Таким образом, CP может дать достаточно **широкое множество**, но