📊 Статистика дайджестов
Всего дайджестов: 34022 Добавлено сегодня: 82
Последнее обновление: сегодня
Авторы:
Carlos Stein Brito
## Контекст
В последние годы глубокие нейронные сети получили широкое применение в различных областях, включая здравоохранение, финансы и языковые модели. Однако существуют значительные проблемы, связанные с оценкой неопределенности и регуляризацией в этих моделях. Обычные методы градиентного спуска оптимизируют точечные оценки параметров модели, не давая возможности оценить уровень надежности или уверенности в этих оценках. Это особенно актуально для нейронных сетей с большим числом параметров и небольшим количеством данных, где модели часто быстро переобучаются. Существуют классические подходы, такие как bootstrapping, которые используют множественные модели для представления неопределенности. Однако, применение этих подходов в глубоких моделях требует много реплик модели, что является практически невозможным. Наша работа предлагает новый подход, который учитывает неопределенность в процессе обучения нейронных сетей, стабилизируя их обучение и улучшая их общие результаты.
## Метод
Мы предлагаем **Twin-Bootstrap Gradient Descent (Twin-Boot)**, новый подход, который интегрирует методы bootstrapping в процесс обучения нейронных сетей. Этот подход основывается на двух моделях, обучаемых параллельно на разных bootstrap-выборках данных. Для того, чтобы обеспечить синхронность этих моделей, мы вводим механизм "mean-reset", который делает так, чтобы пути этих моделей оставались в одной базисной зоне. В результате, различия между двумя моделями могут быть интерпретированы как меру неопределенности внутри базисной зоны. Этот метод используется для выбора весов модели в адаптивной форме, ориентированной на регуляризацию, что приводит к более равномерным решениям. Мы применяем этот подход в глубоких нейронных сетях и сложных задачах инверсного градиентного спуска, чтобы улучшить калибровку и общие результаты.
## Результаты
Мы провели эксперименты на нескольких сложных задачах, включая задачи классификации на глубоких нейронных сетях и задачи инверсного градиентного спуска. Мы сравнили нашу методику с существующими подходами в отношении калиброванности, общей точности и надежности. Результаты показали, что Twin-Boot предоставляет значительные улучшения в отношении оценки неопределенности и уменьшения переобучения. Мы также использовали визуализации для показа локальных неопределенностей в нейронных сетях, что демонстрирует интерпретируемость нашего подхода.
## Значимость
Наш подход Twin-Boot может быть применен в различных областях, где неопределенность является ключевым фактором, таких как медицинская диагностика, системы рекомендаций и инженерия. Он предоставляет преимущества в ви
Annotation:
Standard gradient descent methods yield point estimates with no measure of
confidence. This limitation is acute in overparameterized and low-data regimes,
where models have many parameters relative to available data and can easily
overfit. Bootstrapping is a classical statistical framework for uncertainty
estimation based on resampling, but naively applying it to deep learning is
impractical: it requires training many replicas, produces post-hoc estimates
that cannot guide learning, and implicit...