Global Optimization via Softmin Energy Minimization

2509.17815v1 cs.LG, math.OC 2025-09-24
Авторы:

Andrea Agazzi, Vittorio Carlei, Marco Romito, Samuele Saviozzi

Резюме на русском

#### Контекст Глобальная оптимизация, особенно для неконвексных функций с множеством локальных минимумов, представляет собой значительную сложность для традиционных градиентно-спусковых методов. Другие подходы, такие как мета-урбанистические, демонстрируют эмпирическую эффективность, однако часто не обладают теоретическими гарантиями конвергенции и могут игнорировать доступную информацию о градиенте. Данная работа предлагает новое градиентно-стохастическое методическое решение, ориентированное на эффективное избегание локальных минимумов и нахождение глобальных оптимумов, с использованием сильно концентрированных теорий и математических моделей. #### Метод Авторы предлагают методику, основанную на аппроксимации минимума с помощью "Soft-min Energy", разработанную для участников в задаче партикл-сворма. Эта функция $J_\beta(\mathbf{x})$ представляет собой гладкое, дифференцируемое приближение минимального значения внутри партикл-сворма. На основе этого, авторы определяют стохастический градиентный процесс, включающий термин Брауновского движения для эксплорения пространства решений и временной параметр $\beta$, который регулирует гладкость и эффективность оптимизации (подобно температурной аннелингу). Теоретический анализ показывает, что для сильно конвексных функций, динамика стохастического процесса сходится к стационарной точке, в которой хотя бы один партикл достигает глобального минимума, в то время как другие партиклы стреляют в пространстве для поиска новых минимумов. #### Результаты Эксперименты на основе классических функций оптимизации, таких как двойные потенциалы и функции Акли, показали, что метод превосходит Simulated Annealing в своей способности быстро сбрасывать локальные минимумы и достигать глобального минимума. Авторы также включили расчеты времени попадания в необнаруженные потенциалы в условиях малого шума, демонстрируя неоднозначные преимущества своего подхода по сравнению с Overdamped Langevin динамикой. #### Значимость Предлагаемый подход может быть применен в широкой области задач, где требуется эффективное решение глобальных оптимизационных задач, в том числе в физике, биологии, инженерии и машинном обучении. Он предоставляет новые возможности для эффективного эксплуатации градиентной информации и улучшения скорости конвергенции. Благодаря обобщению техник аннелинга, становится возможным более точно управлять гладкостью и эффективностью оптимизационного процесса. #### Выводы Основными достижениями являются разрабо

Abstract

Global optimization, particularly for non-convex functions with multiple local minima, poses significant challenges for traditional gradient-based methods. While metaheuristic approaches offer empirical effectiveness, they often lack theoretical convergence guarantees and may disregard available gradient information. This paper introduces a novel gradient-based swarm particle optimization method designed to efficiently escape local minima and locate global optima. Our approach leverages a "Soft-min Energy" interacting function, $J_\beta(\mathbf{x})$, which provides a smooth, differentiable approximation of the minimum function value within a particle swarm. We define a stochastic gradient flow in the particle space, incorporating a Brownian motion term for exploration and a time-dependent parameter $\beta$ to control smoothness, similar to temperature annealing. We theoretically demonstrate that for strongly convex functions, our dynamics converges to a stationary point where at least one particle reaches the global minimum, with other particles exhibiting exploratory behavior. Furthermore, we show that our method facilitates faster transitions between local minima by reducing effective potential barriers with respect to Simulated Annealing. More specifically, we estimate the hitting times of unexplored potential wells for our model in the small noise regime and show that they compare favorably with the ones of overdamped Langevin. Numerical experiments on benchmark functions, including double wells and the Ackley function, validate our theoretical findings and demonstrate better performance over the well-known Simulated Annealing method in terms of escaping local minima and achieving faster convergence.

Ссылки и действия