Order Optimal Regret Bounds for Sharpe Ratio Optimization in the Bandit Setting

2508.13749v1 cs.LG, cs.IT, math.IT 2025-08-21
Авторы:

Mohammad Taha Shah, Sabrina Khurshid, Gourab Ghatak

Резюме на русском

## Контекст Оптимизация угадывания в стратегиях работы со стохастическими бандитами является ключевым вопросом в машинном обучении и оптимальной динамике. Ограниченные ресурсы и неопределенность в данных заставляют исследователей стремиться к максимальной эффективности при принятии решений в условиях неопределенности. Шарпе-коэффициент (Sharpe Ratio, SR) широко используется для оценки отношения между риском и вознаграждением в финансовых приложениях. Однако многие существующие алгоритмы не рассматривают риск в терминах SR, что может привести к недостаточной эффективности в реальных ситуациях. Необходимость разработки методов, которые учитывают риск в своих решениях, мотивирует эту работу. ## Метод Работа предлагает расширенный алгоритм для задачи оптимизации SR в стохастическом бандитном режиме. Алгоритм \texttt{SRTS} основывается на методе Томасона, известном за эффективность исследований и сбалансированность между эксплорэксплуатацией. Основные технические новинки: информационное разложение риска и связанных регретных функций, а также применение теории стохастической оптимальности для доказательства границы регрета. Архитектура алгоритма включает этапы сбора информации, корреляционной оценки риска и выбора стратегии на основе шарпе-коэффициента. ## Результаты Исследования проводились на симуляционных данных с различными характеристиками риска и вознаграждений. Эксперименты показали, что \texttt{SRTS} показывает значительное превосходство по регретной границе по сравнению с другими методами. Особое внимание уделено сравнению \texttt{SRTS} с традиционным методом Томасона. Данные показывают, что алгоритм \texttt{SRTS} достигает логарифмического регрета с зависимостью от конкретных характеристик распределения вознаграждений, что отражает действительную сложность оценки риска. ## Значимость Полученные результаты имеют широкое применение в финансовых приложениях, таких как адаптивные инвестиционные стратегии, нейрофинансы и динамическое управление портфелями. Алгоритм \texttt{SRTS} предоставляет новый подход к балансировке высокой средней прибыли и ограничению риска. Его потенциал в применении к реальному времени, например в машинном обучении для финансовых приложений, является перспективным и потенциально влиянительным. Этот результат может повлиять на развитие новых стратегий в управлении рисками в финансовых системах. ## Выводы Результаты работы показывают, что \texttt{SRTS} достигает логарифмического регрета в стохастическом бандитном режиме при оптими

Abstract

In this paper, we investigate the problem of sequential decision-making for Sharpe ratio (SR) maximization in a stochastic bandit setting. We focus on the Thompson Sampling (TS) algorithm, a Bayesian approach celebrated for its empirical performance and exploration efficiency, under the assumption of Gaussian rewards with unknown parameters. Unlike conventional bandit objectives focusing on maximizing cumulative reward, Sharpe ratio optimization instead introduces an inherent tradeoff between achieving high returns and controlling risk, demanding careful exploration of both mean and variance. Our theoretical contributions include a novel regret decomposition specifically designed for the Sharpe ratio, highlighting the role of information acquisition about the reward distribution in driving learning efficiency. Then, we establish fundamental performance limits for the proposed algorithm \texttt{SRTS} in terms of an upper bound on regret. We also derive the matching lower bound and show the order-optimality. Our results show that Thompson Sampling achieves logarithmic regret over time, with distribution-dependent factors capturing the difficulty of distinguishing arms based on risk-adjusted performance. Empirical simulations show that our algorithm significantly outperforms existing algorithms.

Ссылки и действия