📊 Статистика дайджестов
Всего дайджестов: 34123 Добавлено сегодня: 101
Последнее обновление: сегодня
Авторы:
Kristina P. Sinaga, Arjun S. Nair
## Контекст
Post-hoc калибровка является важной методикой для улучшения доверительности прогнозов моделей машинного обучения. Она применяется для преобразования некорректных прогнозов модели в корректные вероятности. Несмотря на широкое распространение таких методов, их теоретическое понимание остается неполным, особенно при работе со сложными данными и архитектурами моделей. Одной из ключевых проблем является влияние качества признаков на калибровку. Ранее недостаточно уделялось внимания взаимосвязи между качеством признаков и калибровочными методами. В настоящей работе мы предлагаем глубокий анализ пост-хок калибровочных методов, включая Platt scaling и isotonic regression.
## Метод
Мы используем теоретический подход для анализа воздействия качества признаков на работу методов калибровки. Основные технические решения заключаются в формализации метрик калибровки и их связи с информативностью признаков. Мы разрабатываем алгоритмы для синтетических и реальных данных, которые позволяют изучить работу калибровки в условиях различного качества данных. Экспериментом становится измерение калибровочных массивов для различных уровней информативности признаков.
## Результаты
Мы проводим эксперименты на синтетических и реальных данных. На синтетических данных показывается, что информативность признаков сильно влияет на калибровочный результат. Если использовать только информативные признаки, то калибровочные методы показывают более высокую точность и доверительность. На реальных данных, включающих шумные признаки, мы отмечаем снижение калибровочной достоверности, однако методы isotonic regression и Platt scaling по-прежнему показывают лучшую устойчивость по сравнению с некалиброванной моделью.
## Значимость
Наши результаты имеют большое значение для практического применения калибровочных методов в различных областях, таких как здравоохранение, финансы и технологии. Мы демонстрируем, что навык калибровки может быть особенно важен в ситуациях с недостаточной информативностью признаков. Также мы показываем, что isotonic regression и Platt scaling могут быть оптимизированы для работы в условиях высокого шума в признаках. Эти полученные результаты могут помочь в выборе подхода к калибровке в зависимости от задачи и конкретных данных.
## Выводы
Мы демонстрируем, что качество признаков является ключевым фактором для успешной калибровки моделей машинного обучения. Наши результаты подчеркивают важность использования только информативных признаков и показывают, что isotonic regression и Platt scaling могут быть оптимальными в условиях высокой информативности. Будущие исследования будут сфокусированы на развитии более гибких и устойчивых методов кали
Annotation:
Post-hoc calibration methods are widely used to improve the reliability of
probabilistic predictions from machine learning models. Despite their
prevalence, a comprehensive theoretical understanding of these methods remains
elusive, particularly regarding their performance across different datasets and
model architectures. Input features play a crucial role in shaping model
predictions and, consequently, their calibration. However, the interplay
between feature quality and calibration performanc...