Twin-Boot: Uncertainty-Aware Optimization via Online Two-Sample Bootstrapping

2508.15019v1 cs.LG, cs.AI, stat.CO, stat.ML 2025-08-23
Авторы:

Carlos Stein Brito

Резюме на русском

## Контекст В последние годы глубокие нейронные сети получили широкое применение в различных областях, включая здравоохранение, финансы и языковые модели. Однако существуют значительные проблемы, связанные с оценкой неопределенности и регуляризацией в этих моделях. Обычные методы градиентного спуска оптимизируют точечные оценки параметров модели, не давая возможности оценить уровень надежности или уверенности в этих оценках. Это особенно актуально для нейронных сетей с большим числом параметров и небольшим количеством данных, где модели часто быстро переобучаются. Существуют классические подходы, такие как bootstrapping, которые используют множественные модели для представления неопределенности. Однако, применение этих подходов в глубоких моделях требует много реплик модели, что является практически невозможным. Наша работа предлагает новый подход, который учитывает неопределенность в процессе обучения нейронных сетей, стабилизируя их обучение и улучшая их общие результаты. ## Метод Мы предлагаем **Twin-Bootstrap Gradient Descent (Twin-Boot)**, новый подход, который интегрирует методы bootstrapping в процесс обучения нейронных сетей. Этот подход основывается на двух моделях, обучаемых параллельно на разных bootstrap-выборках данных. Для того, чтобы обеспечить синхронность этих моделей, мы вводим механизм "mean-reset", который делает так, чтобы пути этих моделей оставались в одной базисной зоне. В результате, различия между двумя моделями могут быть интерпретированы как меру неопределенности внутри базисной зоны. Этот метод используется для выбора весов модели в адаптивной форме, ориентированной на регуляризацию, что приводит к более равномерным решениям. Мы применяем этот подход в глубоких нейронных сетях и сложных задачах инверсного градиентного спуска, чтобы улучшить калибровку и общие результаты. ## Результаты Мы провели эксперименты на нескольких сложных задачах, включая задачи классификации на глубоких нейронных сетях и задачи инверсного градиентного спуска. Мы сравнили нашу методику с существующими подходами в отношении калиброванности, общей точности и надежности. Результаты показали, что Twin-Boot предоставляет значительные улучшения в отношении оценки неопределенности и уменьшения переобучения. Мы также использовали визуализации для показа локальных неопределенностей в нейронных сетях, что демонстрирует интерпретируемость нашего подхода. ## Значимость Наш подход Twin-Boot может быть применен в различных областях, где неопределенность является ключевым фактором, таких как медицинская диагностика, системы рекомендаций и инженерия. Он предоставляет преимущества в ви

Abstract

Standard gradient descent methods yield point estimates with no measure of confidence. This limitation is acute in overparameterized and low-data regimes, where models have many parameters relative to available data and can easily overfit. Bootstrapping is a classical statistical framework for uncertainty estimation based on resampling, but naively applying it to deep learning is impractical: it requires training many replicas, produces post-hoc estimates that cannot guide learning, and implicitly assumes comparable optima across runs - an assumption that fails in non-convex landscapes. We introduce Twin-Bootstrap Gradient Descent (Twin-Boot), a resampling-based training procedure that integrates uncertainty estimation into optimization. Two identical models are trained in parallel on independent bootstrap samples, and a periodic mean-reset keeps both trajectories in the same basin so that their divergence reflects local (within-basin) uncertainty. During training, we use this estimate to sample weights in an adaptive, data-driven way, providing regularization that favors flatter solutions. In deep neural networks and complex high-dimensional inverse problems, the approach improves calibration and generalization and yields interpretable uncertainty maps.

Ссылки и действия