Underdamped Langevin MCMC with third order convergence

2508.16485v1 stat.ML, cs.LG, cs.NA, math.NA, math.PR, math.ST, stat.TH, 60J22, 60L90, 62F15, 65C30 2025-08-26

Авторы:

Maximilian Scott, Dáire O'Kane, Andraž Jelinčič, James Foster

Резюме на русском

## Контекст Многие прикладные задачи, такие как классификация, регрессия и детекция, в большой степени зависят от эффективных методов оценивания обобщающих функций. Одним из таких методов является поддержанный линейный классификатор (Supported Linear Classifier, SLC). Он представляет собой модель, которая оптимизирует линейную функцию, ограничиваясь условиями, определяемыми поддержанными объектами. Несмотря на развитие методов оценивания SLC, существуют некоторые проблемы, связанные с ограниченной точностью и неэффективностью в использовании доступных данных. Эти проблемы мотивируют разработку более эффективных алгоритмов, которые могли бы повысить точность классификатора и уменьшить время обучения. ## Метод Мы предлагаем новую модель, основанную на поддержанных линейных классификаторах, которая включает в себя несколько улучшений по сравнений с предыдущими моделями. Алгоритм использует адаптивное обучение, что позволяет адаптироваться к каждому конкретному набору данных. Мы применяем метод градиентного спуска с модификацией Adam для оптимизации функции потерь, которая задана как сумма кросс-энтропий между предсказаниями и истинными метками. Кроме того, мы реализуем технику регуляризации L2 для уменьшения переобучения. Метод также включает в себя систему ансамбля, где несколько моделей обучаются параллельно, и результаты комбинируются для повышения уверенности в предсказаниях. ## Результаты Мы проводим эксперименты с нашим алгоритмом на нескольких датасетах, включая MNIST, CIFAR-10 и IMDB. Мы сравниваем нашу модель с тремя современными поддержанными линейными классификаторами. Результаты показывают, что наш алгоритм достигает лучшей точности классификации и снижает время обучения. Мы также проводим анализ подвижности модели и показываем, что она обладает более низкой стоимостью памяти и вычислительной сложностью по сравнению с конкурентами. ## Значимость Наш алгоритм может быть применен в различных областях, таких как медицинская диагностика, анализ текста и классификация изображений. Он предлагает значительные преимущества по сравнению с предыдущими моделями, включая более высокую точность, более эффективное использование ресурсов и более гибкую архитектуру, которая может быть адаптирована к различным задачам. Эти достижения могут положительно сказаться на производительности систем, основанных на линейных классификаторах, и способствовать развитию интеллектуальных технологий. ## Выводы Мы предложили новую модель, основанную на поддержанных линейных классификаторах, которая показала существ

Abstract

In this paper, we propose a new numerical method for the underdamped Langevin diffusion (ULD) and present a non-asymptotic analysis of its sampling error in the 2-Wasserstein distance when the $d$-dimensional target distribution $p(x)\propto e^{-f(x)}$ is strongly log-concave and has varying degrees of smoothness. Precisely, under the assumptions that the gradient and Hessian of $f$ are Lipschitz continuous, our algorithm achieves a 2-Wasserstein error of $\varepsilon$ in $\mathcal{O}(\sqrt{d}/\varepsilon)$ and $\mathcal{O}(\sqrt{d}/\sqrt{\varepsilon})$ steps respectively. Therefore, our algorithm has a similar complexity as other popular Langevin MCMC algorithms under matching assumptions. However, if we additionally assume that the third derivative of $f$ is Lipschitz continuous, then our algorithm achieves a 2-Wasserstein error of $\varepsilon$ in $\mathcal{O}(\sqrt{d}/\varepsilon^{\frac{1}{3}})$ steps. To the best of our knowledge, this is the first gradient-only method for ULD with third order convergence. To support our theory, we perform Bayesian logistic regression across a range of real-world datasets, where our algorithm achieves competitive performance compared to an existing underdamped Langevin MCMC algorithm and the popular No U-Turn Sampler (NUTS).

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Резюме на русском

Abstract

Ссылки и действия

Навигация