Global Optimization via Softmin Energy Minimization
2509.17815v1
cs.LG, math.OC
2025-09-24
Авторы:
Andrea Agazzi, Vittorio Carlei, Marco Romito, Samuele Saviozzi
Резюме на русском
#### Контекст
Глобальная оптимизация, особенно для неконвексных функций с множеством локальных минимумов, представляет собой значительную сложность для традиционных градиентно-спусковых методов. Другие подходы, такие как мета-урбанистические, демонстрируют эмпирическую эффективность, однако часто не обладают теоретическими гарантиями конвергенции и могут игнорировать доступную информацию о градиенте. Данная работа предлагает новое градиентно-стохастическое методическое решение, ориентированное на эффективное избегание локальных минимумов и нахождение глобальных оптимумов, с использованием сильно концентрированных теорий и математических моделей.
#### Метод
Авторы предлагают методику, основанную на аппроксимации минимума с помощью "Soft-min Energy", разработанную для участников в задаче партикл-сворма. Эта функция $J_\beta(\mathbf{x})$ представляет собой гладкое, дифференцируемое приближение минимального значения внутри партикл-сворма. На основе этого, авторы определяют стохастический градиентный процесс, включающий термин Брауновского движения для эксплорения пространства решений и временной параметр $\beta$, который регулирует гладкость и эффективность оптимизации (подобно температурной аннелингу). Теоретический анализ показывает, что для сильно конвексных функций, динамика стохастического процесса сходится к стационарной точке, в которой хотя бы один партикл достигает глобального минимума, в то время как другие партиклы стреляют в пространстве для поиска новых минимумов.
#### Результаты
Эксперименты на основе классических функций оптимизации, таких как двойные потенциалы и функции Акли, показали, что метод превосходит Simulated Annealing в своей способности быстро сбрасывать локальные минимумы и достигать глобального минимума. Авторы также включили расчеты времени попадания в необнаруженные потенциалы в условиях малого шума, демонстрируя неоднозначные преимущества своего подхода по сравнению с Overdamped Langevin динамикой.
#### Значимость
Предлагаемый подход может быть применен в широкой области задач, где требуется эффективное решение глобальных оптимизационных задач, в том числе в физике, биологии, инженерии и машинном обучении. Он предоставляет новые возможности для эффективного эксплуатации градиентной информации и улучшения скорости конвергенции. Благодаря обобщению техник аннелинга, становится возможным более точно управлять гладкостью и эффективностью оптимизационного процесса.
#### Выводы
Основными достижениями являются разрабо
Abstract
Global optimization, particularly for non-convex functions with multiple
local minima, poses significant challenges for traditional gradient-based
methods. While metaheuristic approaches offer empirical effectiveness, they
often lack theoretical convergence guarantees and may disregard available
gradient information. This paper introduces a novel gradient-based swarm
particle optimization method designed to efficiently escape local minima and
locate global optima. Our approach leverages a "Soft-min Energy" interacting
function, $J_\beta(\mathbf{x})$, which provides a smooth, differentiable
approximation of the minimum function value within a particle swarm. We define
a stochastic gradient flow in the particle space, incorporating a Brownian
motion term for exploration and a time-dependent parameter $\beta$ to control
smoothness, similar to temperature annealing. We theoretically demonstrate that
for strongly convex functions, our dynamics converges to a stationary point
where at least one particle reaches the global minimum, with other particles
exhibiting exploratory behavior. Furthermore, we show that our method
facilitates faster transitions between local minima by reducing effective
potential barriers with respect to Simulated Annealing. More specifically, we
estimate the hitting times of unexplored potential wells for our model in the
small noise regime and show that they compare favorably with the ones of
overdamped Langevin. Numerical experiments on benchmark functions, including
double wells and the Ackley function, validate our theoretical findings and
demonstrate better performance over the well-known Simulated Annealing method
in terms of escaping local minima and achieving faster convergence.
Ссылки и действия
Дополнительные ресурсы: