Order Optimal Regret Bounds for Sharpe Ratio Optimization in the Bandit Setting
2508.13749v1
cs.LG, cs.IT, math.IT
2025-08-21
Авторы:
Mohammad Taha Shah, Sabrina Khurshid, Gourab Ghatak
Резюме на русском
## Контекст
Оптимизация угадывания в стратегиях работы со стохастическими бандитами является ключевым вопросом в машинном обучении и оптимальной динамике. Ограниченные ресурсы и неопределенность в данных заставляют исследователей стремиться к максимальной эффективности при принятии решений в условиях неопределенности. Шарпе-коэффициент (Sharpe Ratio, SR) широко используется для оценки отношения между риском и вознаграждением в финансовых приложениях. Однако многие существующие алгоритмы не рассматривают риск в терминах SR, что может привести к недостаточной эффективности в реальных ситуациях. Необходимость разработки методов, которые учитывают риск в своих решениях, мотивирует эту работу.
## Метод
Работа предлагает расширенный алгоритм для задачи оптимизации SR в стохастическом бандитном режиме. Алгоритм \texttt{SRTS} основывается на методе Томасона, известном за эффективность исследований и сбалансированность между эксплорэксплуатацией. Основные технические новинки: информационное разложение риска и связанных регретных функций, а также применение теории стохастической оптимальности для доказательства границы регрета. Архитектура алгоритма включает этапы сбора информации, корреляционной оценки риска и выбора стратегии на основе шарпе-коэффициента.
## Результаты
Исследования проводились на симуляционных данных с различными характеристиками риска и вознаграждений. Эксперименты показали, что \texttt{SRTS} показывает значительное превосходство по регретной границе по сравнению с другими методами. Особое внимание уделено сравнению \texttt{SRTS} с традиционным методом Томасона. Данные показывают, что алгоритм \texttt{SRTS} достигает логарифмического регрета с зависимостью от конкретных характеристик распределения вознаграждений, что отражает действительную сложность оценки риска.
## Значимость
Полученные результаты имеют широкое применение в финансовых приложениях, таких как адаптивные инвестиционные стратегии, нейрофинансы и динамическое управление портфелями. Алгоритм \texttt{SRTS} предоставляет новый подход к балансировке высокой средней прибыли и ограничению риска. Его потенциал в применении к реальному времени, например в машинном обучении для финансовых приложений, является перспективным и потенциально влиянительным. Этот результат может повлиять на развитие новых стратегий в управлении рисками в финансовых системах.
## Выводы
Результаты работы показывают, что \texttt{SRTS} достигает логарифмического регрета в стохастическом бандитном режиме при оптими
Abstract
In this paper, we investigate the problem of sequential decision-making for
Sharpe ratio (SR) maximization in a stochastic bandit setting. We focus on the
Thompson Sampling (TS) algorithm, a Bayesian approach celebrated for its
empirical performance and exploration efficiency, under the assumption of
Gaussian rewards with unknown parameters. Unlike conventional bandit objectives
focusing on maximizing cumulative reward, Sharpe ratio optimization instead
introduces an inherent tradeoff between achieving high returns and controlling
risk, demanding careful exploration of both mean and variance. Our theoretical
contributions include a novel regret decomposition specifically designed for
the Sharpe ratio, highlighting the role of information acquisition about the
reward distribution in driving learning efficiency. Then, we establish
fundamental performance limits for the proposed algorithm \texttt{SRTS} in
terms of an upper bound on regret. We also derive the matching lower bound and
show the order-optimality. Our results show that Thompson Sampling achieves
logarithmic regret over time, with distribution-dependent factors capturing the
difficulty of distinguishing arms based on risk-adjusted performance. Empirical
simulations show that our algorithm significantly outperforms existing
algorithms.
Ссылки и действия
Дополнительные ресурсы: