A Novel Framework for Uncertainty Quantification via Proper Scores for Classification and Beyond
2508.18001v1
cs.LG, stat.ML
2025-08-27
Авторы:
Sebastian G. Gruber
Резюме на русском
## Контекст
Модели машинного обучения, особенно те, что используются в решении реальных задач, должны предоставлять надежный подход к оценке их неопределенности. Несмотря на то, что многие текущие методы могут излишне ограничиваться определенными типами задач, необходима общая рамочная модель, которая может быть применена к различным видам задач, включая классификацию, регрессию и генерирование. Неопределенность в таких моделях может быть разделена на две категории: априорная (алгоритмическая нестабильность) и апостериорная (неопределенность в выходных данных). Оценка таких неопределенностей является ключевым элементом для доверительного использования моделей в реальной жизни. Мы предлагаем новую фреймворкную модель, основанную на "proper scores", которая может быть применена к множеству задач.
## Метод
Мы предлагаем новую методологию, основанную на "proper scores", функциях, которые могут быть использованы для оценки неопределенности по отдельности для регрессии, классификации и даже генерирования. Мы доказываем теоретические связи между эпистемической неопределенностью, алетиорической неопределенностью и калибровкой модели. Наш подход включает в себя новый декомпозиционный метод на основе векторных дивергенсов Брегмана, который позволяет более точно интерпретировать неопределенность в генерируемых моделях. Мы также предлагаем новые способы оценки калибровки и неопределенности в классификационных задачах, а также новый метод для сравнения различных подходов к оценке ошибок. Наш фреймворк включает в себя новую оценку "kernel spherical score" для генерируемых моделей в различных областях: изображения, звука и текста.
## Результаты
Мы проверили нашу модель на различных задачах, включая генерирование изображений, звука и текста, используя "kernel spherical score" и другие методы. Мы показали, что наш подход более точен и интерпретируемый в сравнении с состоянием технологии. Например, мы улучшили оценку неопределенности в классификации используя новые способы подхода к "proper calibration errors". Мы также показали, что наш алгоритм для оценки неопределенности в генерируемых моделях превосходит текущие лучшие решения в области генерирования изображений, аудио и текстов.
## Значимость
Наша модель может быть применена в широком кругу задач, включая классификацию, регрессию и генерирование. Она предлагает более гибкий и обобщенный подход к оценке неопределенности, чем существующие методы. Мы демонстрируем, что наш подход может быть использован для улучшения калиброванности и неопределенности моделей, что может прив
Abstract
In this PhD thesis, we propose a novel framework for uncertainty
quantification in machine learning, which is based on proper scores.
Uncertainty quantification is an important cornerstone for trustworthy and
reliable machine learning applications in practice. Usually, approaches to
uncertainty quantification are problem-specific, and solutions and insights
cannot be readily transferred from one task to another. Proper scores are loss
functions minimized by predicting the target distribution. Due to their very
general definition, proper scores apply to regression, classification, or even
generative modeling tasks. We contribute several theoretical results, that
connect epistemic uncertainty, aleatoric uncertainty, and model calibration
with proper scores, resulting in a general and widely applicable framework. We
achieve this by introducing a general bias-variance decomposition for strictly
proper scores via functional Bregman divergences. Specifically, we use the
kernel score, a kernel-based proper score, for evaluating sample-based
generative models in various domains, like image, audio, and natural language
generation. This includes a novel approach for uncertainty estimation of large
language models, which outperforms state-of-the-art baselines. Further, we
generalize the calibration-sharpness decomposition beyond classification, which
motivates the definition of proper calibration errors. We then introduce a
novel estimator for proper calibration errors in classification, and a novel
risk-based approach to compare different estimators for squared calibration
errors. Last, we offer a decomposition of the kernel spherical score, another
kernel-based proper score, allowing a more fine-grained and interpretable
evaluation of generative image models.
Ссылки и действия
Дополнительные ресурсы: