📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Gradient Methods with Online Scaling Part II. Practical Aspects

2025-09-17

Авторы:

Ya-Chi Chu, Wenzhi Gao, Yinyu Ye, Madeleine Udell

## Контекст Оптимизация является ключевым инструментом в различных областях, включая машинное обучение, экономику, жесткую и мягкую инженерию. Однако традиционные методы оптимизации часто требуют дорогостоящих итераций или больших объемов памяти. Это становится особенно важной проблемой в сценариях, где данные поступают потоком или где необходимо эффективно использовать ресурсы. Одним из подходов является использование онлайн-методов оптимизации, которые способны адаптироваться к потоковым условиям. Одна из таких моделей — Online Scaled Gradient Methods (OSGM). В Part I [Gao25] была установлена основа OSGM, но этот работу посвящено исследованию его практических аспектов. ## Метод Методология OSGM основывается на использовании онлайн-конвексической оптимизации для адаптации шагов в градиентных методах. В этой работе авторы расширяют OSGM на динамически изменяющиеся ситуации и применяют его для разработки новых адаптивных методов первого порядка. Основной архитектурой является идея использования скользящих средних и адаптивных масштабов для оптимального управления шагами. Также включены методы уменьшения нагрузки на память, такие как хранение только необходимого ограниченного числа градиентов. Эта гибкость позволяет OSGM-Best оперировать даже в ресурсоразмещающих условиях. ## Результаты Эксперименты проводились на различных задачах, включая задачи обобщенного минимизации и неконвексической оптимизации. Для сравнения использовались классические методы, такие как AdaGrad и quasi-Newton. Результаты показывают, что OSGM-Best не только сопоставим в производительности с quasi-Newton, но и значительно экономит память, а итерации становятся дешевле. Также показано, что OSGM-Best справляется лучше в условиях, где данные поступают по потоку, что делает его привлекательным для реальных задач, таких как хот-старт в машинном обучении. ## Значимость Результаты OSGM-Best имеют широкую полезность в многих областях, от машинного обучения до экономических моделей. Преимуществом является то, что OSGM-Best не только эффективен в ресурсах, но и может адаптироваться к изменению условий. Это делает его полезным для хот-старта в машинном обучении, а также для сценариев с динамическими данными. Будущие исследования могут направляться на дальнейшее уточнение методов для работы в более сложных сценариях, таких как задачи с нелинейными ограничениями или комбинаторными проблемами. ## Выводы Работа показывает, что OSGM-Best является эффективным и практичным алгоритмом для адаптивного решения оптимизационных задач. Он сочетает в себе высокую эффек

Annotation:

Part I of this work [Gao25] establishes online scaled gradient methods (OSGM), a framework that utilizes online convex optimization to adapt stepsizes in gradient methods. This paper focuses on the practical aspects of OSGM. We leverage the OSGM framework to design new adaptive first-order methods and provide insights into their empirical behavior. The resulting method, OSGM-Best, matches the performance of quasi-Newton variants while requiring less memory and cheaper iterations. We also extend ...

ID: 2509.11007v1 math.OC, cs.LG, stat.ML

arXiv PDF

📄 Preconditioned subgradient method for composite optimization: overparameterization and fast convergence

2025-09-17

Авторы:

Mateo Díaz, Liwei Jiang, Abdel Ghani Labassi

## Контекст Composite optimization problems широко используются в машинном обучении, сигнальном процессинге и других областях, где необходимо решать задачи минимизации сложных функций. Одной из таких задач является проблема, когда целевая функция представляет собой композитую форму, то есть результат умножения одной части на другую. Обычно, в таких задачах, одна часть является гладкой, а другая — конкретной конструкцией, зависящей от задачи. Например, задачи типа phase retrieval, blind deconvolution и collaborative filtering могут быть описаны как composite optimization problems. Однако, существуют ситуации, когда одна часть, например, smooth map, является плохо определенной (overparameterized), что приводит к медленному выполнению субградиентного метода. Этот вопрос требует разработки новых методов, которые бы ускоряли решение таких задач. ## Метод Мы предлагаем дополнительное условие для субградиентного метода, названное Levenberg-Morrison-Marquardt subgradient method. Этот метод предполагает добавление матричного умножения к субградиентному методу, чтобы устранить проблему плохой конструкции smooth map. Именно этот матричный множитель позволяет находить локальную линейную сходимость в случае, когда предыдущий субградиентный метод оказывался медленным. Метод модифицируется таким образом, чтобы он зависел не от конструкции smooth map, но только от свойств конкретного convex function. Это уменьшает требования к модели и ускоряет решение проблемы. ## Результаты Мы провести эксперимент с использованием набора данных, включающий различные задачи composite optimization. Например, мы изучили square-variable formulations, matrix sensing, и tensor factorization. Результаты показали, что применение Levenberg-Morrison-Marquardt subgradient method приводит к значительному ускорению сходимости и повышению точности решения в сравнении с традиционным субградиентным методом. Эти результаты были подтверждены для различных условий, включая плохую конструкцию smooth map. ## Значимость Предлагаемый метод может быть применен в различных областях, где используются composite optimization problems, включая phase retrieval, blind deconvolution и collaborative filtering. Он предоставляет значительные выгоды в скорости сходимости и точности решения в сравнении с традиционными методами. Это позволяет эффективнее решать сложные задачи в data science и signal processing, где требуется высокая скорость и точность. ## Выводы Мы предложили новый Levenberg-Morrison-Marquardt subgradient method, который решает проблемы сходимости при работе с overparameterized smooth map в composite optimization problems. Этот метод позволяет получить локальную линейную сходимость в случаях, когда предыдущие методы были медленны. Мы продемонстрировали эффективность нашего подхода на различных прикладных задачах, таких как square-variable formulations, matrix sensing, и tensor factorization. Будущие исследования будут направлены на расширение этого метода для более сложных задач и его исполь

Annotation:

Composite optimization problems involve minimizing the composition of a smooth map with a convex function. Such objectives arise in numerous data science and signal processing applications, including phase retrieval, blind deconvolution, and collaborative filtering. The subgradient method achieves local linear convergence when the composite loss is well-conditioned. However, if the smooth map is, in a certain sense, ill-conditioned or overparameterized, the subgradient method exhibits much slowe...

ID: 2509.11486v1 math.OC, cs.LG, stat.ML, 65K05, 65K10, 90C30, 90C06, 68U15

arXiv PDF

📄 Sparse Polyak: an adaptive step size rule for high-dimensional M-estimation

2025-09-16

Авторы:

Tianqi Qiao, Marie Maros

## Контекст Sparse Polyak - это инновационный подход к решению высокомерных задач статистической оценки, где размерность проблемы может значительно превосходить размер выборки. Традиционный подход Polyak, основанный на оценке липшицевой сглаживающей константы, часто неэффективен в таких условиях. Это происходит из-за того, что в высокоразмерных пространствах оценка липшицевой сглаживающей константы становится недостаточно точной, даже если проблема остается благоприятно усложненной. Это приводит к неэффективности стандартной схемы Polyak, которая требует все большего числа итераций для достижения оптимальной статистической точности. Таким образом, нуждается в адаптивном подходе, который учитывает особенности высокоразмерных задач и уменьшает затраты на вычисления. ## Метод Sparse Polyak предлагает модификацию стандартного подхода Polyak, уделяя особое внимание оценке липшицевой сглаживающей константы в ограниченных направлениях, относящихся к задаче (restricted Lipschitz smoothness constant). Это позволяет более точно адаптировать шаг сходимости к характеристикам задачи. Шаг Sparse Polyak вычисляется как $$\eta_t = \frac{\|\nabla f(x_t)\|^2}{\|\nabla f(x_t)\|_D^2},$$ где $D$ - матрица, определяющая ограниченное направление. Эта модификация допускает более точное учетво влияния отдельных компонент градиента, что приводит к более эффективной сходимости в высокомерных задачах. ## Результаты Для оценки эффективности Sparse Polyak был проведен ряд экспериментов на имитационных данных и реальных примерах. Было проанализировано поведение метода на задачах с высокой размерностью, включая задачи регрессии и классификации. Эксперименты показали, что Sparse Polyak обеспечивает более точный и стабильный спад функционала, с меньшим числом итераций по сравнению с традиционным методом Polyak. Это доказывает его преимущество в высокомерных статистических задачах, где традиционные подходы оказываются неэффективными. ## Значимость Sparse Polyak может быть применен в различных статистических моделях, где проблема размерности является ключевой особенностью. Он показал более высокую эффективность в задачах с высоким размерным диапазоном, таких как линейные модели, логистическая регрессия и нейронные сети. Благодаря точности оценки липшицевой сглаживающей константы в ограниченных направлениях, Sparse Polyak обеспечивает более эффективный спад функционала, что может привести к повышению производительности в реальных задачах. ## Выводы Sparse Polyak представляет собой эффективный подход к решению высокомерных задач статистической оценки, где традиционные подходы часто оказываются неэффективными. Он демонстри

Annotation:

We propose and study Sparse Polyak, a variant of Polyak's adaptive step size, designed to solve high-dimensional statistical estimation problems where the problem dimension is allowed to grow much faster than the sample size. In such settings, the standard Polyak step size performs poorly, requiring an increasing number of iterations to achieve optimal statistical precision-even when, the problem remains well conditioned and/or the achievable precision itself does not degrade with problem size. ...

ID: 2509.09802v1 math.OC, cs.LG, stat.ML

arXiv PDF

📄 Bregman Douglas-Rachford Splitting Method

2025-09-12

Авторы:

Shiqian Ma, Lin Xiao, Renbo Zhao

## Контекст Максимально монотонное включение (MMI) широко применяется в задачах оптимизации с ограничениями. Однако найти его выпрямленную форму часто трудно или невозможно. Алгоритмы, работающие с MMI, должны обеспечивать эффективность, сходимость и универсальность. Однако существующие подходы, такие как метод Альтернативных Директив Множителей (ADMM), не всегда подходят для решения всех форм задач. Было предложено Bregman Douglas-Rachford Splitting (BDRS), который шире ADMM и эффективен для решения MMI. Этот подход является новым в литературе и может быть использован для решения задач оптимального транспорта (OT) на дискретных пространствах. ## Метод BDRS — это алгоритм, основанный на принципе Додсона, который ускоряет сходимость решения MMI за счет использования Bregman дистанции в качестве меры расстояния. Алгоритм состоит из двух этапов: шаг Douglas-Rachford и шаг Bregman. В шаге Douglas-Rachford используется проекция на подпространство, а в шаге Bregman — применяется регуляризация. В случае разрешимости MMI, BDRS гарантирует устойчивость и сходимость. Для решения дискретной OT-задачи, BDRS может быть применен к двойственной форме задачи, представленной в виде MMI. ## Результаты Исследователи провели эксперименты с данными, связанными с задачей оптимального транспорта на дискретных пространствах. Было показано, что BDRS и его вариант Bregman Peaceman-Rachford Splitting (BPRS) эффективно решают задачу, даже для сложных случаев. Для сравнения были проведены эксперименты с другими методами, такими как ADMM. Результаты показали, что BDRS обеспечивает более стабильную и быструю сходимость. Несмотря на это, требования к выполнению одного из предположений не применимы к задаче оптимального транспорта, что является ограничением. ## Значимость BDRS является универсальным способом решения максимально монотонных включений и может использоваться в различных областях, таких как машинное обучение, анализ данных и оптимальный транспорт. Особенно важно его применение в задачах оптимального транспорта на дискретных пространствах, где ADMM не всегда применим. Благодаря своей гибкости, BDRS может общий подход для решения MMI в различных задачах. ## Выводы BDRS является важной дальнейшей разработкой в области методов решения монотонных включений. Он показал значительную эффективность в решении дискретной задачи оптимального транспорта. Однако требование к одному из предположений, не применимо к этой задаче, является ограничением. В будущем стоит рассмотреть возможность уточнения условий сходимости для данного случая и расширение BDRS для решения других задач, где ADMM не применим.

Annotation:

In this paper, we propose the Bregman Douglas-Rachford splitting (BDRS) method and its variant Bregman Peaceman-Rachford splitting method for solving maximal monotone inclusion problem. We show that BDRS is equivalent to a Bregman alternating direction method of multipliers (ADMM) when applied to the dual of the problem. A special case of the Bregman ADMM is an alternating direction version of the exponential multiplier method. To the best of our knowledge, algorithms proposed in this paper are ...

ID: 2509.08739v1 math.OC, cs.LG, stat.ML

arXiv PDF

📄 Faster Gradient Methods for Highly-smooth Stochastic Bilevel Optimization

2025-09-05

Авторы:

Lesi Chen, Junru Li, Jingzhao Zhang

## Контекст Область билевел-оптимизации (bilevel optimization) широко используется в машинном обучении, экономике и других науках. Она заключается в решении задач, где одна модель зависит от параметров другой модели. Одна из сложностей в этой области — статистическая природа проблем, где данные генерируются случайным образом. Несмотря на возрастающий интерес, получение эффективных методов решения таких задач остается вызовом, особенно при высокой степени гладкости функций. Целью данного исследования является изучение сложности точного решения таких задач и разработка более эффективных алгоритмов. ## Метод Для решения задачи используется метод F$^2$SA, ранее предложенный авторами для решения неконвексных задач сильно конвексной формы. Этот метод основывается на дифференцировании градиентов, используя повторный цикл обновлений. Авторы предлагают расширить F$^2$SA, добавив к нему аппроксимацию гипер-градиента с помощью $p$-го порядка финтей-разности. Это приводит к новой классу алгоритмов F$^2$SA-$p$, в которых используется $p$th-order finite difference. Такой подход расширяет применимость метода к высоко-гладким задачам, существенно улучшая производительность. ## Результаты Авторы проверили свой подход экспериментально, применяя F$^2$SA-$p$ к различным задачам билевел-оптимизации. Для этих экспериментов были использованы данные, генерируемые случайным образом, и метрики, измеряющие точность решения. Из результатов оказалось, что F$^2$SA-$p$ позволяет достичь более высокой скорости сходимости по сравнению с исходным методом. Так, при $p = 2$ (второй порядок) сложность становится $\tilde{\mathcal{O}}(\epsilon^{-4})$, а при $p = \Omega(\log \epsilon^{-1} / \log \log \epsilon^{-1})$ метод достигает $\Omega(\epsilon^{-4})$, что соответствует нижней границе сложности. ## Значимость Результаты диктуют значительный прогресс в области билевел-оптимизации. Метод F$^2$SA-$p$ позволяет решать задачи быстрее, чем прежние методы, особенно в случаях высокой гладкости. Это открывает новые возможности для применения билевел-оптимизации в сложных моделях, таких как нейронные сети и оптимизационные задачи в экономике. Более высокая скорость сходимости также может снизить время обучения моделей и повысить точность решений. ## Выводы Авторы показали, что их расширенный подход F$^2$SA-$p$ эффективен для решения высоко-гладких стохастических билевел-задач. Они подтвердили, что нижняя граница сложности $\Omega(\epsilon^{-4})$ сохраняется даже в условиях высокой гладкости, что делает их метод почти оптимальным в этой области. Будущие исследования могут сфокусироваться на расширении применения F$^2$SA-$p

Annotation:

This paper studies the complexity of finding an $\epsilon$-stationary point for stochastic bilevel optimization when the upper-level problem is nonconvex and the lower-level problem is strongly convex. Recent work proposed the first-order method, F${}^2$SA, achieving the $\tilde{\mathcal{O}}(\epsilon^{-6})$ upper complexity bound for first-order smooth problems. This is slower than the optimal $\Omega(\epsilon^{-4})$ complexity lower bound in its single-level counterpart. In this work, we show t...

ID: 2509.02937v1 math.OC, cs.LG, stat.ML

arXiv PDF

Показано 11 - 15 из 15 записей