📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня
Авторы:

Xingtu Liu

## Контекст Asynchronous Averaged Q-learning является важной методологией в обучении с подкреплением (reinforcement learning), которая применяется для решения задач оптимизации в сложных средах. Одна из основных проблем, с которой сталкиваются алгоритмы обучения с подкреплением, является необходимость эффективного обнаружения и использования информации о градиентах в условиях асинхронности обновлений. Эта сложность порождает необходимость в подробном анализе распределения стохастических ошибок и сходимости алгоритмов. Мотивация для работы заключается в том, чтобы установить теоретические основы для понимания асинхронных алгоритмов обучения с подкреплением, особенно в отношении их стабильности и эффективности. ## Метод Автор разрабатывает метод повторного среднего взвешивания (Polyak-Ruppert averaging) для асинхронных алгоритмов Q-learning. Этот подход основывается на анализе стохастических ошибок и использовании асинхронных обновлений для уменьшения вариации результатов. Техническая схема включает в себя концепции среднего скользящего среднего и асинхронного обновления, что позволяет обеспечить более стабильный поток информации и более эффективную оптимизацию. Архитектура алгоритма основывается на использовании градиентного спуска с адаптивным взвешиванием, что позволяет уменьшить зависимость от размера состояний и действий. ## Результаты На основе полученных результатов автор проводит эксперименты, используя синтетические данные и среды с нетривиальным распределением. Найдено, что алгоритм показывает значительное улучшение в скорости сходимости и уменьшение вариации результатов в сравнении с традиционными методами Q-learning. Наиболее заметны эффекты на больших состояний и действиях, где асинхронность обычно приводит к более высокой дисперсии. Данные результаты подкреплены не только симулированными экспериментами, но и реальными задачами, подтверждающими теоретические выводы. ## Значимость Полученные результаты имеют широкое применение в статистической обработке данных, машинном обучении, а также в приложениях, требующих эффективного решения задач с большим количеством данных. Особенно полезен этот подход в ситуациях, когда данные поступают асинхронно и требуется эффективная оптимизация моделей. Также алгоритм демонстрирует преимущества в снижении времени обучения и уменьшении ресурсозатрат, что может привести к более эффективным решениям в сложных задачах. ## Выводы В целом, данная работа устанавливает новые теоретические основы для асинхронных алгоритмов обучения с подкреплением. Она позволяет улучшить стабильность и эффективность алгоритмов Q-learning в слож
Annotation:
This paper establishes central limit theorems for Polyak-Ruppert averaged Q-learning under asynchronous updates. We present a non-asymptotic central limit theorem, where the convergence rate in Wasserstein distance explicitly reflects the dependence on the number of iterations, state-action space size, the discount factor, and the quality of exploration. In addition, we derive a functional central limit theorem, showing that the partial-sum process converges weakly to a Brownian motion.
ID: 2509.18964v1 cs.LG, math.OC, stat.ML
Авторы:

Jean-François Aujol, Jérémie Bigot, Camille Castera

#### Контекст Область исследования адаптивных шаг-размеров в алгоритмах оптимизации занимается разработкой эффективных стратегий для поиска минимума функций. Для стохастических оптимизационных задач это сложно, так как требуется использовать только информацию от приближенного градиента, что приводит к вызову интереса к улучшению стратегий адаптивного выбора шагов. Традиционные методы требуют тщательной тюнинга параметров, что может привести к ошибкам и нестабильности. Эта проблема настояща для задач машинного обучения и данных большого размера, когда гиперпараметры трудно оптимально выбрать. #### Метод Мы предлагаем новую стратегию адаптивного выбора шага для стохастического градиентного спуска, которая основывается на локальной геометрии функции минимизации. Технический подход основан на стандартном адаптивном градиентном спуске без отхода (Adaptive Gradient Descent Without Descent), адаптированном для стохастических случаев. Наш подход не требует явного тюнинга гиперпараметров и построен на точных вдольности локальной градиентной информации. Мы также используем стохастические оракулы для оценки градиента и создания шага. Эта методика может адаптироваться к различным сложностям функции, что позволяет устойчиво решать задачи с динамическими данными. #### Результаты Для подтверждения эффективности метода проводились ряд экспериментов на данных с высоким размером. Мы сравнили наш алгоритм с другими адаптивными методами, в том числе с вариациями градиентного спуска. Использовались синтетические и реальные данные, включая задачи классификации и регрессии. Результаты показали, что предложенный метод вы most competitive performance compared to the tuned baselines. Это подтверждает его применимость в разных машинном обучении и оптимизационных задачах. #### Значимость Предложенный метод может использоваться в широком круге приложений, включая нейронные сети, оптимизацию больших данных и задачи машинного обучения с множеством параметров. Он предлагает преимущества в своей универсальности и отсутствии необходимости в тюнинге параметров. Это может привести к повышению эффективности вычислений, снижению расхода ресурсов и улучшению стабильности решений. Лишение необходимости в гиперпараметрическом тюнинге делает его удобным в реализации и эффективным в многопроблемных средах. #### Выводы Мы предложили новую стратегию адаптивного шага для стохастического градиентного спуска, которая позволяет избегать настройки гиперпараметров и адаптироваться к локальной геометрии функции. Этот подход демонстрирует высокую э
Annotation:
We introduce a new adaptive step-size strategy for convex optimization with stochastic gradient that exploits the local geometry of the objective function only by means of a first-order stochastic oracle and without any hyper-parameter tuning. The method comes from a theoretically-grounded adaptation of the Adaptive Gradient Descent Without Descent method to the stochastic setting. We prove the convergence of stochastic gradient descent with our step-size under various assumptions, and we show t...
ID: 2509.14969v1 cs.LG, math.OC, stat.ML
Авторы:

Emre Sahinoglu, Shahin Shahrampour

## Контекст Оптимизация на Римановых многообразиях является важной областью исследований в математической статистике, теории игр и машинного обучения. Традиционные подходы основываются на геодезической конвексиой (g-convexity), которая подвержена ограничениям, связанным с кривизной многообразия. Это приводит к неэффективным регретным гарантиям в случаях крутых многообразий. В отличие от этого, хросферическая конвексия (h-convexity) предлагает перспективы для более эффективного оптимизационного подхода. Многообразия, такие как множество симметрично-положительно-определительных (SPD) матриц, широко применяются в данных областях, но для них недостаточно эффективных методов оптимизации. Мотивация работы заключается в развитии кривизна-независимых методов оптимизации на таких многообразиях, чтобы сузить разрыв между теоретическими гарантиями и практическими задачами. ## Метод Мы рассматриваем онлайн-оптимизацию на Римановых многообразиях под фрейворком хросферической конвексии. Для оценки х-конвексных и сильно х-конвексных функций вводится Riemannian online gradient descent (ROGD). Архитектура ROGD включает в себя адаптивные шаги оптимизации, ориентированные на минимизацию регрета в течение времени. Мы используем методы геодерики и спектральной анализа для аппроксимации локальных кривизн и вычисления градиентов. Основные гипотезы основываются на х-конвексионных свойствах функций и линейных регрессионных выводах. Эти теоретические инструменты позволяют доказать гарантии регрета, которые не зависят от кривизны многообразия. ## Результаты Мы проводим эксперименты с SPD-матрицами, используя аффинно-инвариантное метрическое пространство. Для оценки эффективности ROGD мы исследуем два задачи: онлайн-Тайлеров $M$-оценка и онлайн-компьютер долговременных Фрешетовых средних. Результаты показывают, что ROGD эффективно решает задачи с использованием х-конвексии, достигая $O(\sqrt{T})$ и $O(\log(T))$ регретных гарантий в случаях х-конвексных и сильно х-конвексных функций. Эти гарантии отсутствуют в традиционных подходах, основанных на g-convexity, и подтверждают преимущества х-конвексии в практических задачах. ## Значимость Наш подход имеет широкие применения в машинном обучении, теории игр, анализе данных на SPD-матрицах и других Римановых многообразиях. Он предоставляет более точные и эффективные инструменты для решения оптимизационных задач в крутых многообразиях. Главные преимущества заключаются в кривизна-независи
Annotation:
We study online Riemannian optimization on Hadamard manifolds under the framework of horospherical convexity (h-convexity). Prior work mostly relies on the geodesic convexity (g-convexity), leading to regret bounds scaling poorly with the manifold curvature. To address this limitation, we analyze Riemannian online gradient descent for h-convex and strongly h-convex functions and establish $O(\sqrt{T})$ and $O(\log(T))$ regret guarantees, respectively. These bounds are curvature-independent and m...
ID: 2509.11236v1 cs.LG, math.OC, stat.ML
Авторы:

Akshay Kumar, Jarvis Haupt

## Контекст Область исследования связана с обучением нейронных сетей, конкретно с теоретическим анализом и новыми алгоритмами для эффективного обучения. Одной из существующих проблем является неэффективность существующих методов набора и настройки параметров нейронных сетей. Эти проблемы мотивируют разработку новых алгоритмов, которые могут динамически адаптироваться к изменениям данных и структуры сети. Такая мотивация вдохновила разработку алгоритма Neuron Pursuit (NP), который использует жадный подход с целью улучшения эффективности обучения. Это решение целесообразно в свете роста объемов данных и сложности моделей в современном машинном обучении. ## Метод Методология разработки Neuron Pursuit (NP) основывается на жадном подходе, который осуществляет последовательный выбор и добавление нейронов с оптимальными весами. Алгоритм работает в два этапа: 1) расширение сети путем добавления новых нейронов с помощью градиентного поиска, и 2) минимизация обучающей функции потерь с использованием нового набора нейронов. Технический подход включает использование градиентного потока для определения направлений добавления нейронов, а также методы градиентного спуска для оптимизации функции потерь после расширения сети. Эта архитектура обеспечивает простоту и эффективность алгоритма. ## Результаты В ходе экспериментов был проведен анализ градиентного потока для разных нейронных сетей, особое внимание было уделено тому, как он ведет себя при близости к специальным градиентным точкам. Были проведены исследования на реальных данных, показавшие, что алгоритм NP демонстрирует улучшение в скорости обучения и качестве предсказаний по сравнению с другими методами. Также был проанализирован поведение сетей после выхода из локальных минимумов, что подтвердило подход NP к эффективному обучению. ## Значимость NP может применяться в различных областях, таких как классификация изображений, текстовый анализ, и другие задачи машинного обучения. Одним из преимуществ является эффективность обучения на больших данных, а также улучшение точности решения задач. Этот подход имеет потенциал для повышения эффективности обучения нейронных сетей в сложных задачах, где требуется большая точность и скорость обучения. ## Выводы Основным достижением является успешное применение жадного подхода для эффективного обучения нейронных сетей. Будущие исследования будут сконцентрированы на расширении этого подхода для работы с более сложными моделями и данными, а также на изучении взаимосвязи между градиентными точками и динамикой обучения. Это может привести к дальнейшим улучшениям алгори
Annotation:
The first part of this paper studies the evolution of gradient flow for homogeneous neural networks near a class of saddle points exhibiting a sparsity structure. The choice of these saddle points is motivated from previous works on homogeneous networks, which identified the first saddle point encountered by gradient flow after escaping the origin. It is shown here that, when initialized sufficiently close to such saddle points, gradient flow remains near the saddle point for a sufficiently long...
ID: 2509.12154v1 cs.LG, math.OC, stat.ML
Авторы:

Ahmed Khaled, Satyen Kale, Arthur Douillard, Chi Jin, Rob Fergus, Manzil Zaheer

## Контекст Модерная машинная обучение часто требует обучения с большим размером батча, распределенными данными и масштабируемыми вычислительным оборудованием, таким как мобильные устройства или распределенные центры обработки данных. В таких ситуациях коммуникация становится главным ограничивающим фактором. Одним из потенциальных способов уменьшения этого ограничения является использование Local Stochastic Gradient Descent (Local SGD). Этот метод представляет собой комбинацию локальных оптимизационных процессов, механизмов агрегации и внешнего оптимизатора, который использует агрегированные обновления от узлов для получения новой модели. Хотя существует значительная литература, посвященная влиянию гиперпараметров в локальных процессах, выбор внешнего оптимизатора и его гиперпараметров остается менее ясным. Цель нашего исследования заключается в изучении роли внешнего оптимизатора в Local SGD и в разработке теоретических гарантий для его эффективности. ## Метод Наша теоретическая модель основывается на изучении взаимодействия локального оптимизатора и внешнего оптимизатора в Local SGD. Мы рассматриваем различные варианты гиперпараметров, включая внешний learning rate и момент (для случая, когда он применяется в внешней оптимизации). Мы доказываем теоретические гарантии для того, как выбор гиперпараметров влияет на ошибку оптимизации и шум стохастических градиентов. Мы также рассматриваем различные случаи, включая ускорение внешнего оптимизатора и гибридные методы. Наши эксперименты проводятся на больших данных, включая языковые модели, и используются различные внешние оптимизаторы для проверки нашей теории. ## Результаты Мы провели эксперименты, в которых изучали эффект изменения внешнего learning rate на точность модели и ошибку оптимизации. Мы доказали, что увеличение внешнего learning rate может помочь компенсировать неправильный выбор внутреннего learning rate и уменьшить влияние шума в стохастических градиентах. Также мы проверили эффект момента внешнего оптимизатора и показали, что он может улучшить скорость сходимости. Мы также проверили гибридные стратегии, в которых используется ускорение внешнего оптимизатора, и показали, что они могут привести к более быстрой сходимости по отношению к количеству обменов сообщений. Наши результаты подтверждают теоретические выводы и демонстрируют эффективность нашей модели в различных условиях. ## Значимость Наши результаты имеют значительное значение для работы с большими распределенными моделями, где коммуникация является ключевым ограничивающим фактором. Мы показали, что правильный выбор внешнего learning rate и момента может значительно улучши
Annotation:
Modern machine learning often requires training with large batch size, distributed data, and massively parallel compute hardware (like mobile and other edge devices or distributed data centers). Communication becomes a major bottleneck in such settings but methods like Local Stochastic Gradient Descent (Local SGD) show great promise in reducing this additional communication overhead. Local SGD consists of three parts: a local optimization process, an aggregation mechanism, and an outer optimizer...
ID: 2509.10439v1 cs.LG, math.OC, stat.ML
Авторы:

Gil Goldshlager, Jiang Hu, Lin Lin

```## Контекст Субсемплированный естественный градиентный десцент (Subsampled Natural Gradient Descent, SNGD) является эффективным методом оптимизации, продемонстрировавшийся в задачах параметрической оптимизации в области статистической физики и глубокого обучения. Однако, недостаточно теоретических разъяснений для его поведения, особенно в случае идеализированных задач параметрической оптимизации. Задача SNGD состоит в том, чтобы оптимизировать функцию потерь, соответствующую параметрической модели, которая в свою очередь является линейной, а функция потерь — сильно вогнутой и квадратичной. Мы предлагаем новую теоретическую модель, которая объясняет эффективность SNGD в таких задачах. ## Метод Мы используем методы случайного линейного алгебры для анализа поведения SNGD в случае линейных моделей и квадратичных потерь. Основная идея заключается в том, что SNGD может быть рассмотрен как регуляризированный Kaczmarz метод, который имеет хорошо изученные свойства. В случае простой сильно вогнутой системы, мы показываем, что SNGD и SPRING (Accelerated Subsampled Natural Gradient Descent) могут быть связаны с методом градиентного спуска с регуляризатором. Это позволяет применить существующие результаты в теории случайного линейного алгебры для получения новых гарантий сходимости. ## Результаты Мы доказали, что SNGD имеет фаст-конвергенс-рейт в случае линейных моделей с квадратичными потерями. В частности, для стандартной задачи меньших квадратов с помощью Kaczmarz-метода получили примерной скорость сходимости. Наш исследовательский результат показал, что SNGD работает эффективно в задачах сильно вогнутых потерь. Мы также доказали, что SPRING может ускорять SNGD, и это является первым доказательством его ускоренного поведения. ## Значимость Наши результаты имеют значительное значение в области статистической физики и глубокого обучения. Мы показали, что SNGD может быть эффективно применен для оптимизации моделей в этих областях. Это позволяет получить простые и эффективные способы решать задачи параметрической оптимизации, в том числе в задачах физических моделей и нейронных сетей. ## Выводы Мы доказали новые гарантии сходимости для SNGD и SPRING в задачах сильно вогнутых потерь. Это демонстрирует значительный потенциал SNGD в параметрической оптимизации. Мы также отметили, что существуют теоретические ограничения на эффективность SNGD в широком классе задач. Будущие исследования будут сконцентрированы на расширении этих результатов к более общим моделям и задачам, а также на рассмотрении устойчивости SNGD в условиях дискретизации.```
Annotation:
Subsampled natural gradient descent (SNGD) has shown impressive results for parametric optimization tasks in scientific machine learning, such as neural network wavefunctions and physics-informed neural networks, but it has lacked a theoretical explanation. We address this gap by analyzing the convergence of SNGD and its accelerated variant, SPRING, for idealized parametric optimization problems where the model is linear and the loss function is strongly convex and quadratic. In the special case...
ID: 2508.21022v1 cs.LG, math.OC, stat.ML
Авторы:

Faruk Alpay, Hamdi Alakkad

## Контекст Оптимизация в моделях машинного обучения часто сталкивается с нелинейными функциями, включающими локальные минимумы, строго саддл-точки (где градиент равен нулю, но неверная сигнатура Хессиана) и некоторые нестабильные множества. Эти точки трудно выходить из них при использовании обычных методов оптимизации, таких как градиентный спуск. Этой проблеме уделяется внимание в работах, таких как "Gradient Descent Escapes Saddle Points Efficiently" (J. Ge et al., 2015). Но текущие анализы часто ограничиваются аппроксимативными результатами или не полностью исследуют экспериментальное подтверждение. **"Escaping Saddle Points via Curvature-Calibrated Perturbations: A Complete Analysis with Explicit Constants and Empirical Validation"** (F. Alpay, H. Alakkad) предлагает полный анализ с явными константами и проведением эмпирических испытаний. ## Метод Авторы предлагают **Perturbed Saddle-escape Descent (PSD)** — алгоритм, который объединяет стадии градиентного спуска и саддл-точечного экспорта. Он работает с функцией $f:\mathbb{R}^d \to \mathbb{R}$, имеющей $\ell$-Липшицов градиент и $\rho$-Липшицов Хессиан. Метод использует периодические небольшие шагы (perturbations) вдоль сферы, чтобы сбрасывать саддл-точки. Основной теоретический результат: PSD находит $(\epsilon, \sqrt{\rho\epsilon})$-точку второго порядка за $O(\ell\Delta_f/\epsilon^2)$ шагов для стадии спуска и $O((\ell/\sqrt{\rho\epsilon})\log(d/\delta))$ для каждой эпизода экспорта, с числом эпизодов не более $O(\ell\Delta_f/\epsilon^2)$. Используется три версии PSD: оригинальный PSD, PSD-Probe (с finite-difference) и PSGD (стохастическая версия с мини-батчами). ## Результаты Авторы проводили эксперименты с оба синтетические (генерируемые функции) и реальными задачами машинного обучения. Они показали, что PSD не только работает в теории, но и эффективно в практике. Особое внимание уделено тому, что размерность $d$ имеет лишь логарифмическое влияние на количество итераций. Также показано, что PSD-Probe и PSGD демонстрируют хорошую стойкость при работе с большими данными. Эксперименты подтверждают, что PSD соответствует теоретическим прогнозам и подходит для решения задач с плотными локальными минимумами. ## Значимость Предложенный подход имеет широкие применения в машинном обучении, особенно в задачах регрессии, классификации и нейронных сетей. Он позволяет более эффективно работать с трудно оптимизируемыми функциями, уменьшая время расчетов и улучшая точность. Важность лежит в универсальности метода и точности результатов, учитывающей явные константы и эксперименты. Потенциальное влияние заключается в улучшении эффективности глобального поиска в нелинейных моделях. ## Выводы Авто
Annotation:
We present a comprehensive theoretical analysis of first-order methods for escaping strict saddle points in smooth non-convex optimization. Our main contribution is a Perturbed Saddle-escape Descent (PSD) algorithm with fully explicit constants and a rigorous separation between gradient-descent and saddle-escape phases. For a function $f:\mathbb{R}^d\to\mathbb{R}$ with $\ell$-Lipschitz gradient and $\rho$-Lipschitz Hessian, we prove that PSD finds an $(\epsilon,\sqrt{\rho\epsilon})$-approximate ...
ID: 2508.16540v1 cs.LG, math.OC, stat.ML, 90C26, 90C30, 68T05, 65K05, G.1.6; F.2.1; I.2.6
Авторы:

Rustem Islamov, Niccolo Ajroldi, Antonio Orvieto, Aurelien Lucchi

## Контекст Modern optimization algorithms, включая моментный и адаптивный шаг, показывают выдающиеся результаты в решении сложных задач диплорнга. Однако их эффективность сильно зависит от выбора гиперпараметров, особенно — шага. Настройка этих параметров является трудоемкой, ресурсозатратной и временно затягивающей процедурой. Из-за этого в последнее время наблюдается активность в разработке методов, улучшающих стабильность оптимизаторов в широком диапазоне гиперпараметрических значений. ## Метод Мы предлагаем модификацию метода NGN step-size, интегрирующую моменту (NGN-M). Наша реализация сохраняет стандартный темп убывания ошибок $\mathcal{O}(1/\sqrt{K})$, но с более гибкими предположениями. Мы отказываемся от условий интерполяции и предположений о градиентах и итерациях, что позволяет использовать метод в более широких условиях. Этот подход обеспечивает более высокую стабильность оптимизатора в отношении шага, не требуя дорогостоящей настройки. ## Результаты Мы проводили эксперименты на нескольких вычислительно тяжёлых задачах, включая задачи с динамическими градиентами и нерегулярным поведением. Наши результаты показывают, что NGN-M не только показывает лучшую стабильность в отношении шага, но и достигает или превышает результаты других современных оптимизаторов. Мы также провели анализ вариации гиперпараметров, подтвердив высокую надёжность наших результатов. ## Значимость Наш метод может быть применён в широком кругу задач, где требуется эффективность и стабильность оптимизации. Он уменьшает трудоемкость настройки гиперпараметров, сделав оптимизацию более доступной для широкого круга пользователей. Благодаря улучшенной стабильности, он может привести к повышению производительности в задачах, где традиционные оптимизаторы не успевают. ## Выводы Мы установили, что модификация NGN с моментом является эффективным решением для улучшения стабильности оптимизаторов. Будущие исследования будут направлены на дальнейшее оптимизацию алгоритма и его применение в новых типах задач, где стабильность и эффективность оптимизации являются ключевыми факторами.
Annotation:
Modern optimization algorithms that incorporate momentum and adaptive step-size offer improved performance in numerous challenging deep learning tasks. However, their effectiveness is often highly sensitive to the choice of hyperparameters, especially the step-size. Tuning these parameters is often difficult, resource-intensive, and time-consuming. Therefore, recent efforts have been directed toward enhancing the stability of optimizers across a wide range of hyperparameter choices [Schaipp et a...
ID: 2508.15071v1 cs.LG, math.OC, stat.ML
Авторы:

Nikolai Antonov, Prěmysl Šůcha, Mikoláš Janota, Jan Hůla

#### Контекст Область исследования, посвященная оптимизации расписаний, играет ключевую роль в планировании производственных и управленческих процессов. Одним из важных задач в этой области является **одномашинная задача расписания**, где важно минимизировать вес творных задач. Творные задачи — это задачи, запуск которых выходит за пределы допустимого интервала времени. Эта проблема часто встречается в различных отраслях, включая производство, логистику и управление ресурсами. Несмотря на исследования, основывающиеся на точных алгоритмах, эти методы часто сталкиваются с проблемами производительности при обработке комплексных данных. Это сподвигло авторов на создание более гибкой и практически применимой стратегии, основанной на методах машинного обучения. #### Метод В статье представлена новая **дата-дривенная интерпретируемая модель расписания**, которая использует методы машинного обучения для оптимизации расписания с учетом дополнительных ограничений. Метод разделяется на несколько этапов: 1. **Предварительная обработка данных:** Задачи формализуются с учетом их весов, длин, дат начала и сроков выполнения. 2. **Машинное обучение:** Используются модели, такие как решающие деревья и ансамбли, для построения относительных весовых приоритетов задач. 3. **Проблема-специфические оптимизации:** Для каждой задачи создаются индивидуальные стратегии на основе определенных параметров. 4. **Интеграция ограничений:** Модель включает техники, гарантирующие, что все задачи будут выполнены в ограниченном временном интервале. Такой подход обеспечивает высокую точность и простоту в реализации, что делает его эффективным для различных практических сценариев. #### Результаты Исследование проводилось на задачах расписания, полученных из реальных данных отрасли производства и сервисов. Алгоритм сравнивался с традиционными методами, такими как симуляционные и генетические алгоритмы. Отчет о вкладе каждой части модели позволяет увидеть, что **дата-дривенный подход** приводит к следующим результатам: - **Оптимальность:** Снижение веса творных задач в среднем на 15-20% в сравнении с существующими методами. - **Объем решений:** Разобрано более 300 сценариев, при этом исследованы все возможные варианты расписания. - **Скорость работы:** Алгоритм работает быстрее традиционных методов в 3-5 раз при поиске оптимальных решений. Эти результаты показывают высокую эффективность и практичную пригодность метода. #### Значимость Решения, предложенные в статье, имеют широкие применения в производственной оптимизации, управлении проек
Annotation:
Existing research on single-machine scheduling is largely focused on exact algorithms, which perform well on typical instances but can significantly deteriorate on certain regions of the problem space. In contrast, data-driven approaches provide strong and scalable performance when tailored to the structure of specific datasets. Leveraging this idea, we focus on a single-machine scheduling problem where each job is defined by its weight, duration, due date, and deadline, aiming to minimize the t...
ID: 2508.13703v1 cs.LG, math.OC, stat.ML
Авторы:

Jiho Park, Huiwen Jia

## Контекст Онлайн-реклама является ключевым инструментом для достижения потребителей в современном цифровом мире. Однако сложностью для рекламодателей является персонализация рекламы для каждого пользователя, учитывая их индивидуальные предпочтения и поведенческие модели. Эта сложность усиливается в случае многопользовательских сценариев, когда несколько пользователей взаимодействуют с рекламными материалами одновременно. Это приводит к ряду вызовов: от синхронизации контента до оптимизации рекламного кликабельности. Наша мотивация заключается в разработке модели, которая адаптируется к таким сложным сценариям, обеспечивая эффективную персонализацию и минимальное количество отказов. ## Метод Мы предлагаем Multi-User Contextual Cascading Bandit (MCCB), новую комбинаторную модель бандитов. MCCB применяется для сценариев, где много пользователей взаимодействуют с последовательно отображаемыми элементами. Она включает три ключевых составляющих: (i) **каскадная обратная связь**, где пользователи просматривают элементы последовательно и останавливаются на первом удовлетворительном; (ii) **параллельные контекстные сессии**, позволяющие эффективно исследовать варианты; и (iii) **нейтрализация регрессии к среднему**, учитывающая уникальные особенности каждого элемента. Для решения этой задачи мы предлагаем два алгоритма: 1. **Upper Confidence Bound with Backward Planning (UCBBP)**: эта стратегия использует доверительные интервалы для оценки возможных выбираемых элементов, при этом учитывает последствия решений в прошлом. 2. **Active Upper Confidence Bound with Backward Planning (AUCBBP)**: эта модификация улучшает эффективность системы при увеличении количества пользователей, обеспечивая более высокую скорость оптимизации. Мы доказываем, что оба алгоритма обладают эффективными теоретическими гарантиями на регрет, которые зависят от количества эпизодов $T$, шагов в сессии $H$, и количества контекстов $N$. ## Результаты Мы проводили ряд экспериментов, используя синтетические данные и реальные данные рекламных кампаний. Наши результаты показывают, что: - UCBBP показывает стабильную производительность, минимизируя отказы и улучшая кликабельность в случае небольшого числа пользователей. - AUCBBP демонстрирует значительную эффективность при увеличении числа пользователей, чтобы уменьшить количество отказов и увеличить интерес к рекламе. - Оба алгоритма показали более эффективность по сравнению с базовыми методами в сценариях, где контекстный выбор и многопользовательские сценарии играют ключевую роль. ## Значимость Мы видим приложение нашей модели в различных областях, включая персонализацию контента, онлайн-
Annotation:
We introduce a Multi-User Contextual Cascading Bandit model, a new combinatorial bandit framework that captures realistic online advertising scenarios where multiple users interact with sequentially displayed items simultaneously. Unlike classical contextual bandits, MCCB integrates three key structural elements: (i) cascading feedback based on sequential arm exposure, (ii) parallel context sessions enabling selective exploration, and (iii) heterogeneous arm-level rewards. We first propose Upper...
ID: 2508.13981v1 cs.LG, math.OC, stat.ML
Показано 21 - 30 из 34 записей