A Novel Framework for Uncertainty Quantification via Proper Scores for Classification and Beyond

2508.18001v1 cs.LG, stat.ML 2025-08-27
Авторы:

Sebastian G. Gruber

Резюме на русском

## Контекст Модели машинного обучения, особенно те, что используются в решении реальных задач, должны предоставлять надежный подход к оценке их неопределенности. Несмотря на то, что многие текущие методы могут излишне ограничиваться определенными типами задач, необходима общая рамочная модель, которая может быть применена к различным видам задач, включая классификацию, регрессию и генерирование. Неопределенность в таких моделях может быть разделена на две категории: априорная (алгоритмическая нестабильность) и апостериорная (неопределенность в выходных данных). Оценка таких неопределенностей является ключевым элементом для доверительного использования моделей в реальной жизни. Мы предлагаем новую фреймворкную модель, основанную на "proper scores", которая может быть применена к множеству задач. ## Метод Мы предлагаем новую методологию, основанную на "proper scores", функциях, которые могут быть использованы для оценки неопределенности по отдельности для регрессии, классификации и даже генерирования. Мы доказываем теоретические связи между эпистемической неопределенностью, алетиорической неопределенностью и калибровкой модели. Наш подход включает в себя новый декомпозиционный метод на основе векторных дивергенсов Брегмана, который позволяет более точно интерпретировать неопределенность в генерируемых моделях. Мы также предлагаем новые способы оценки калибровки и неопределенности в классификационных задачах, а также новый метод для сравнения различных подходов к оценке ошибок. Наш фреймворк включает в себя новую оценку "kernel spherical score" для генерируемых моделей в различных областях: изображения, звука и текста. ## Результаты Мы проверили нашу модель на различных задачах, включая генерирование изображений, звука и текста, используя "kernel spherical score" и другие методы. Мы показали, что наш подход более точен и интерпретируемый в сравнении с состоянием технологии. Например, мы улучшили оценку неопределенности в классификации используя новые способы подхода к "proper calibration errors". Мы также показали, что наш алгоритм для оценки неопределенности в генерируемых моделях превосходит текущие лучшие решения в области генерирования изображений, аудио и текстов. ## Значимость Наша модель может быть применена в широком кругу задач, включая классификацию, регрессию и генерирование. Она предлагает более гибкий и обобщенный подход к оценке неопределенности, чем существующие методы. Мы демонстрируем, что наш подход может быть использован для улучшения калиброванности и неопределенности моделей, что может прив

Abstract

In this PhD thesis, we propose a novel framework for uncertainty quantification in machine learning, which is based on proper scores. Uncertainty quantification is an important cornerstone for trustworthy and reliable machine learning applications in practice. Usually, approaches to uncertainty quantification are problem-specific, and solutions and insights cannot be readily transferred from one task to another. Proper scores are loss functions minimized by predicting the target distribution. Due to their very general definition, proper scores apply to regression, classification, or even generative modeling tasks. We contribute several theoretical results, that connect epistemic uncertainty, aleatoric uncertainty, and model calibration with proper scores, resulting in a general and widely applicable framework. We achieve this by introducing a general bias-variance decomposition for strictly proper scores via functional Bregman divergences. Specifically, we use the kernel score, a kernel-based proper score, for evaluating sample-based generative models in various domains, like image, audio, and natural language generation. This includes a novel approach for uncertainty estimation of large language models, which outperforms state-of-the-art baselines. Further, we generalize the calibration-sharpness decomposition beyond classification, which motivates the definition of proper calibration errors. We then introduce a novel estimator for proper calibration errors in classification, and a novel risk-based approach to compare different estimators for squared calibration errors. Last, we offer a decomposition of the kernel spherical score, another kernel-based proper score, allowing a more fine-grained and interpretable evaluation of generative image models.

Ссылки и действия