📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня
Авторы:

Igor Sokolov, Abdurakhmon Sadiev, Yury Demidovich, Fawaz S Al-Qahtani, Peter Richtárik

#### Контекст Parameter-efficient fine-tuning (PEFT) является ключевым подходом для адаптации больших обученных моделей к конкретным задачам, особенно с учетом непрерывного роста размеров моделей. Наиболее успешным подходом в этой области является Low-Rank Adaptation (LoRA), которая предлагает выразить адаптацию через произведение двух низкоранговых матриц. Хотя LoRA пользуется большим практическим применением, теоретическое понимание ее работы остается недостаточным. Недавние исследования, такие как RAC-LoRA (arXiv:2410.08305), стали первым шагом в направлении глубокого анализа. В настоящей работе мы предлагаем Bernoulli-LoRA — новый теоретический фреймворк, который унифицирует и расширяет существующие подходы LoRA. Мы предлагаем использовать проблему Бернулли для выбора матрицы для обновления, что позволяет унифицировать различные стратегии обновления, в то же время сохраняя теоретическую доступность. #### Метод Мы предлагаем Bernoulli-LoRA, который включает несколько вариантов различных методов обновления. Наш фреймворк построен на основе механизма Бернулли, который регулирует скорость и частоту обновлений матриц. Мы рассматриваем такие варианты, как Bernoulli-LoRA-GD (построенный на градиентном спуске), Bernoulli-LoRA-SGD (стохастический градиентный спуск), Bernoulli-LoRA-PAGE, Bernoulli-LoRA-MVR, Bernoulli-LoRA-QGD, Bernoulli-LoRA-MARINA и Bernoulli-LoRA-EF21. Для каждого варианта мы устанавливаем гарантии сходимости, включая общие теоретические гипотезы о неконвексных функциях. Также мы расширяем наш анализ для линейных и нелинейных функций, а также для случая сложности в адаптации. #### Результаты Мы проводим эксперименты для проверки нашей теории на различных задачах, включая обучение с подкреплением, классификацию изображений и текстов. Мы сравниваем наши результаты с другими подходами, такими как LoRA, RAC-LoRA и другие подходы PEFT. Наши эксперименты показали, что Bernoulli-LoRA не только обладает теоретической ценностью, но и демонстрирует высокую эффективность в практических задачах. Мы увидели, что использование проблемы Бернулли для выбора матрицы значительно улучшает скорость и качество обучения, а также увеличивает устойчивость модели к шумам. #### Значимость Мы видим возможности применения Bernoulli-LoRA в различных областях, таких как глубокое обучение, классификация текстов, обучение резильтатам, а также в области adaptive optimization. Наш подход может существенно улучшить эффективность адаптации моделей к новым данным, что важно для реального мира, где модели должны быстро адаптироваться к новым условиям. Мы также отмечаем, что наш подход может помочь в решени
Annotation:
Parameter-efficient fine-tuning (PEFT) has emerged as a crucial approach for adapting large foundational models to specific tasks, particularly as model sizes continue to grow exponentially. Among PEFT methods, Low-Rank Adaptation (LoRA) (arXiv:2106.09685) stands out for its effectiveness and simplicity, expressing adaptations as a product of two low-rank matrices. While extensive empirical studies demonstrate LoRA's practical utility, theoretical understanding of such methods remains limited. R...
ID: 2508.03820v1 cs.LG, math.OC
Авторы:

Zhongjun Zhang, Shipra Agrawal, Ilan Lobel, Sean R. Sinclair, Christina Lee Yu

#### Контекст Рассмотрим Markov decision processes (MDPs) с бесконечным горизонтом и средним издержанием. Эти модели широко применяются в операционном исследовании, например, в управлении инвентарем, системах очередей и планировании производства. Одна из основных задач в таких моделях — найти политику, минимизирующую средний издержаний. Однако найти эффективную политику без дополнительного интерактивного взаимодействия с системой является сложной задачей. Большинство существующих подходов требуют большого количества итераций, что может быть неэффективно в реальном времени. Мы предлагаем новый подход, использующий частичный порядок над классом политик, что позволяет эффективно использовать данные, собранные под одним политикой для оценки политик, относящихся к другой. #### Метод Мы предлагаем алгоритм реквизитов, основанный на подходе "epoch-based". Данный подход использует частичный порядок над классом политик, чтобы обеспечить "counterfactual inference", то есть использовать данные, собранные под одной политикой, для оценки другой. Это позволяет уменьшить количество необходимых итераций и улучшить эффективность алгоритма. Наша методология включает три основных этапа: 1. Определение частичного порядка над политиками. 2. Разработка алгоритма, который использует этот порядок для эффективного обучения. 3. Использование полученных данных для проверки и сравнения политик. Данный подход позволяет получить регрет-зависимость $O(\sqrt{w \log(|\Theta|) T})$, где $w$ — ширина частичного порядка, а $|\Theta|$ — размер класса политик. Особенностью этого подхода является то, что регрет не зависит от размера состояний и действий, что делает его эффективным для больших систем. #### Результаты Мы применили нашу модель к нескольким задачам из операционного исследования, включая управление инвентарем и моделирование очередей. Для каждой задачи, мы показали, что алгоритм достигает новых теоретических гарантий и демонстрирует сильные эмпирические результаты. Например, в модели управления инвентарем мы доказали, что наш алгоритм может уменьшить средний издержаний без дополнительных интервактивных данных. Также, в модели очередей, мы показали, что политики, полученные с помощью нашего алгоритма, выполняются эффективнее, независимо от структуры запросов или структуры запросов. Эти результаты подтверждают эффективность нашей модели в различных сценариях. #### Значимость Наш подход имеет широкие применения в различных областях операционного исследования. Он может быть использован для улучшения решений в управлении инвентарем, моделировании очередей и других задача
Annotation:
We propose an epoch-based reinforcement learning algorithm for infinite-horizon average-cost Markov decision processes (MDPs) that leverages a partial order over a policy class. In this structure, $\pi' \leq \pi$ if data collected under $\pi$ can be used to estimate the performance of $\pi'$, enabling counterfactual inference without additional environment interaction. Leveraging this partial order, we show that our algorithm achieves a regret bound of $O(\sqrt{w \log(|\Theta|) T})$, where $w$ i...
ID: 2508.03904v1 stat.ML, cs.LG, math.OC, 68Q32, I.2.6
Авторы:

Puqian Wang, Nikos Zarifis, Ilias Diakonikolas, Jelena Diakonikolas

**Резюме** В статье предлагается алгоритм для эффективного обучения монотонных моделей Single-Index Models (SIM) с помощью квадратной функции потерь в условиях адверсарного шума метоков. Главная трудность заключается в том, что активационная функция модели неизвестна, что значительно усложняет обучение. Авторы предлагают первый компьютерно-эффективный алгоритм, который достигает константного приближения решения, даже при наличии шума метоков. Алгоритм работает для всех монотонных активаций с ограниченным моментом $2 + \zeta$ ($\zeta > 0$), включая не только липшицевы функции, но и даже непрерывные модели, такие как дискретные полупространства. Основная инновация заключается в использовании оптимизационного подхода, который выходит за рамки традиционных градиентных методов и использует целевое линейное пространство, свойства гауссовских пространств, а также регулярность монотонных функций. Этот подход позволяет достичь высокой точности и универсальности в решении задачи обучения SIM в трудных условиях.
Annotation:
We consider the basic problem of learning Single-Index Models with respect to the square loss under the Gaussian distribution in the presence of adversarial label noise. Our main contribution is the first computationally efficient algorithm for this learning task, achieving a constant factor approximation, that succeeds for the class of {\em all} monotone activations with bounded moment of order $2 + \zeta,$ for $\zeta > 0.$ This class in particular includes all monotone Lipschitz functions and ...
ID: 2508.04670v1 cs.LG, math.OC
Авторы:

Wei Liu, Anweshit Panda, Ujwal Pandey, Christopher Brissette, Yikang Shen, George M. Slota, Naigang Wang, Jie Chen, Yangyang Xu

На данный момент возникают сложности при решении задачи неконвексной стохастической оптимизации в децентрализованных сетях, в том числе из-за высокой стоимости обмена данными между узлами и ограниченности мощности вычислительных устройств. Для решения этих проблем предлагается два новых алгоритма: сжатый децентрализованный адаптивный метод и сжатый децентрализованный метод типа Heavy Ball. Оба методы используют технику моментной ускорения для быстрого схождения и технику сжатия для экономии ресурсов связи. Главная новинка заключается в способности этих методов поддерживать эффективность в ситуациях, где встречаются взаимные конфликты между требованиями к точности, сжатию и балансу градиентов. Эти методы доказали свою эффективность в стохастических задачах оптимизации, в том числе при обучении нейронных сетей и трансформеров, демонстрируя линейное ускорение и свойство топологии-независимости в условиях определённого диапазона ошибки.
Annotation:
In this paper, we design two compressed decentralized algorithms for solving nonconvex stochastic optimization under two different scenarios. Both algorithms adopt a momentum technique to achieve fast convergence and a message-compression technique to save communication costs. Though momentum acceleration and compressed communication have been used in literature, it is highly nontrivial to theoretically prove the effectiveness of their composition in a decentralized algorithm that can maintain t...
ID: 2508.04950v1 cs.LG, math.OC
Авторы:

Hikaru Umeda, Hideaki Iiduka

Недавнее развитие глубокого обучения привело к моделям с превосходными возможностями, но также привёз к серьезным вычислительным проблемам. Одной из ключевых проблем является оптимальное управление параметрами батча и обучения в стохастических градиентных методах. Неоднородное изменение этих параметров может снизить эффективность оптимизации и сгенерировать переобучение. В статье предлагается новый подход, основанный на теоретических выводах, который оптимизирует рост этих параметров, чтобы достичь хорошего баланса между эффективностью и сходимостью. Эта оптимизация основывается на использовании понятия SFO-сложности (stochastic first-order oracle complexity), которая измеряет ожидаемое число градиентных вычислений для достижения точки $\epsilon$-околостационарной. Авторы проверили гипотезы теоретического моделирования в экспериментах, подтвердив выгоду своего подхода в условиях больших батчей. Это работа даёт новые теоретические знания и практические рекомендации для эффективного обучения в глубоком обучении.
Annotation:
The unprecedented growth of deep learning models has enabled remarkable advances but introduced substantial computational bottlenecks. A key factor contributing to training efficiency is batch-size and learning-rate scheduling in stochastic gradient methods. However, naive scheduling of these hyperparameters can degrade optimization efficiency and compromise generalization. Motivated by recent theoretical insights, we investigated how the batch size and learning rate should be increased during t...
ID: 2508.05297v1 cs.LG, math.OC
Авторы:

Hikaru Umeda, Hideaki Iiduka

**Резюме** Оптимизация глубоких нейронных сетей через мини-батчные итерации стохастического градиентного спуска (SGD) требует оптимального выбора параметров батча и шага обучения. Теоретические исследования показали, что существует критический размер батча, минимизирующий стоимость стохастического первого порядка (SFO). Авторы предлагают адаптивную стратегию для ускорения SGD, использующую этот подход. Она позволяет адаптивно менять размер батча и шаг обучения в зависимости от изменения нормы полного градиента в ходе обучения. Эксперименты с данной стратегией показали, что она ускоряет сходимость SGD по сравнению со существующими методами. Это решение значительно улучшает эффективность мини-батчного SGD в алгоритмах оптимизации нейронных сетей.
Annotation:
The convergence behavior of mini-batch stochastic gradient descent (SGD) is highly sensitive to the batch size and learning rate settings. Recent theoretical studies have identified the existence of a critical batch size that minimizes stochastic first-order oracle (SFO) complexity, defined as the expected number of gradient evaluations required to reach a stationary point of the empirical loss function in a deep neural network. An adaptive scheduling strategy is introduced to accelerate SGD tha...
ID: 2508.05302v1 cs.LG, math.OC
Авторы:

Ilya Levin, Alexey Naumov, Sergey Samsonov

Исследование рассматривает Linear Stochastic Approximation (LSA) с Polyak-Ruppert (PR) алгоритмом, оптимизированным для Markovian noise. Авторы исследуют bias и high-order error bounds с постоянным шагом $\alpha$ и предлагают новую декомпозицию bias с помощью линеаризации. Они показывают, что leading-order term $\alpha$-зависим и не выравнивается PR-алгоритмом. Для решения этой проблемы, используется Richardson-Romberg (RR) extrapolation, которая эффективно устраняет этот bias. Авторы также разрабатывают high-order moment bounds для RR-итераций и показывают, что лидирующий error-term находится в соответствии с asymptotically optimal covariance matrix в vanilla-averaged LSA. Эти результаты демонстрируют, что RR-extrapolation может улучшить точность и понизить ошибки в Markovian LSA.
Annotation:
In this paper, we study the bias and high-order error bounds of the Linear Stochastic Approximation (LSA) algorithm with Polyak-Ruppert (PR) averaging under Markovian noise. We focus on the version of the algorithm with constant step size $\alpha$ and propose a novel decomposition of the bias via a linearization technique. We analyze the structure of the bias and show that the leading-order term is linear in $\alpha$ and cannot be eliminated by PR averaging. To address this, we apply the Richard...
ID: 2508.05570v1 stat.ML, cs.LG, math.OC, math.ST, stat.TH, 62L20
Показано 151 - 157 из 157 записей