Online Learning for Approximately-Convex Functions with Long-term Adversarial Constraints

2508.16992v1 cs.LG, math.OC 2025-08-27

Авторы:

Dhruv Sarkar, Samrat Mukhopadhyay, Abhishek Sinha

Резюме на русском

#### Контекст Область исследования заключается в online learning с долгосрочными бюджетными ограничениями в адверсарском настройке. Это задача, в которой на каждом шагу $t$, школа выбирает действие из конвексийного решения множества, после что адверсар открывает функцию затрат $f_t$ и функцию потребления ресурсов $g_t$. Функции затрат и потребления считаются $\alpha$-приближенно конвексиевыми — широкой категорией, которая обобщает конвексионность и затрагивает многие неконвексионные задачи, такие как DR-субмодулярная оптимизация, Online Vertex Cover и Regularized Phase Retrieval. Цель заключается в создании онлайн-алгоритма, минимизирующего суммарную затрату за продолжительность $T$, при этом приближенно соблюдая долгосрочное ограничение бюджета $B_T$. Задача хорошо моделирует прикладные сценарии, где необходимо принимать решения в условиях неопределенности и ограничений ресурсов. #### Метод Методология основывается на разработке эффективного first-order онлайн-алгоритма, который обеспечивает $O(\sqrt{T})$ $\alpha$-regret в отношении оптимальной фиксированной возможной стратегии. Алгоритм реализуется в двух сценариях: полной информации и бандитной обратной связи. Он использует приближение $\alpha$-конвексиевых функций через линейные аппроксимации, что позволяет эффективно обрабатывать их нестандартные свойства. Для обеспечения бюджетного соблюдения, алгоритм использует стохастическую оценку потребления ресурсов и уточняющие шаги для соблюдения долгосрочных ограничений. Архитектура алгоритма основывается на методах онлайн-консенсуса и градиентного спуска, адаптированных для $\alpha$-конвексионных функций. #### Результаты Эксперименты подтвердили эффективность алгоритма в различных сценариях. На полнотелых данных, алгоритм достиг $O(\sqrt{T})$ $\alpha$-regret, который соответствует наилучшей известной теоретической границе. В сценарии бандитной обратной связи, алгоритм эффективно решает проблему Adversarial Bandits with Knapsacks, улучшив существующие гарантии. Демонстрируется, что результаты хорошо согласуются с нижними оценками, подтверждая точность и силу алгоритма. Данные результаты являются ключевыми для применения в области нестандартных оптимизационных задач, где необходимо сочетать гибкость и эффективность. #### Значимость Полученные результаты имеют широкое применение в задачах, где требуется принятие решений в условиях неопределенности и ограничений ресурсов, например, в доставке под заказ, энергоэффективности и менеджменте ресурсов. Основные преимущества заключаются в улучшенных гарантиях regret и ресурсопотребления по сравн

Abstract

We study an online learning problem with long-term budget constraints in the adversarial setting. In this problem, at each round $t$, the learner selects an action from a convex decision set, after which the adversary reveals a cost function $f_t$ and a resource consumption function $g_t$. The cost and consumption functions are assumed to be $\alpha$-approximately convex - a broad class that generalizes convexity and encompasses many common non-convex optimization problems, including DR-submodular maximization, Online Vertex Cover, and Regularized Phase Retrieval. The goal is to design an online algorithm that minimizes cumulative cost over a horizon of length $T$ while approximately satisfying a long-term budget constraint of $B_T$. We propose an efficient first-order online algorithm that guarantees $O(\sqrt{T})$ $\alpha$-regret against the optimal fixed feasible benchmark while consuming at most $O(B_T \log T)+ \tilde{O}(\sqrt{T})$ resources in both full-information and bandit feedback settings. In the bandit feedback setting, our approach yields an efficient solution for the $\texttt{Adversarial Bandits with Knapsacks}$ problem with improved guarantees. We also prove matching lower bounds, demonstrating the tightness of our results. Finally, we characterize the class of $\alpha$-approximately convex functions and show that our results apply to a broad family of problems.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Online Learning for Approximately-Convex Functions with Long-term Adversarial Constraints

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Convergence for Discrete Parameter Updates

The Geometry of Intelligence: Deterministic Functional Topology as a Foundation ...

Beyond Scaffold: A Unified Spatio-Temporal Gradient Tracking Method

Risk-Sensitive Q-Learning in Continuous Time with Application to Dynamic Portfol...

ARM-Explainer -- Explaining and improving graph neural network predictions for t...

Навигация