Off-Policy Learning in Large Action Spaces: Optimization Matters More Than Estimation
2509.03456v1
stat.ML, cs.LG
2025-09-05
Авторы:
Imad Aouali, Otmane Sakhi
Резюме на русском
## Контекст
Контекст данной работы — это область **off-policy learning (OPL)**, используемая в **offline contextual bandits** для принятия решений. Офф-полити стандарта (off-policy evaluation, OPE) и офф-полити обучения (off-policy learning, OPL) являются ключевыми компонентами в этой области. Они позволяют оценивать и улучшать политики действий в условиях выбора данных, не требуя проведения экспериментов в реальном времени.
Проблема, которая вдохновила написание данной работы, заключается в том, что несмотря на теоретические доказательства, оптимизация OPE-оценщиков не всегда приводит к получению лучших политик в трудных оптимизационных условиях. Мотивация заключается в том, что текущие алгоритмы OPL не всегда эффективно справляются с оптимизационными задачами в ситуациях, когда количество возможных действий (action spaces) становится очень велико. Это вызывает необходимость изучения оптимизационных аспектов в OPL.
## Метод
В этой работе рассматриваются теоретические основы и эмпирические эксперименты, направленные на изучение оптимизационных аспектов в OPL. Особое внимание уделено анализу проблем, возникающих в оптимизационных ландшафтах в ситуациях с большим количеством возможных действий.
Авторы предлагают новый анализ **weighted log-likelihood objectives**, показывая, что эти функции оптимизации обладают значительно лучшими свойствами оптимизации в сравнении с другими подходами. Рассматривается архитектура алгоритмов, включающую в себя стратегии, оптимизирующие эти целевые функции. Это позволяет получить более стабильные и эффективные результаты при обучении политик в больших пространствах действий.
## Результаты
Эксперименты были проведены на различных симуляционных и реальных данных, включая сценарии с большим количеством действий. Авторы сравнили новую подходящую методику с существующими методами OPL. Основные полученные результаты показывают, что **weighted log-likelihood objectives** демонстрируют значительное улучшение в скорости и качестве оптимизации.
В результате, полученные политики не только эффективнее, но и часто превосходят политики, полученные при использовании стандартных OPL-методов. Эти результаты демонстрируют, что оптимизация целевых функций имеет большое значение в OPL, особенно в сложности оптимизационных задач в больших пространствах действий.
## Значимость
Полученные результаты имеют несколько важных приложений. Во-первых, они могут быть применены в **рекламных системах**, где необходимо выбирать оптимальные действия на основе данных, не требуя реального времени. Во-вторых, в **экономике**, где требуется оценивать результаты различных стратегий в условиях
Abstract
Off-policy evaluation (OPE) and off-policy learning (OPL) are foundational
for decision-making in offline contextual bandits. Recent advances in OPL
primarily optimize OPE estimators with improved statistical properties,
assuming that better estimators inherently yield superior policies. Although
theoretically justified, we argue this estimator-centric approach neglects a
critical practical obstacle: challenging optimization landscapes. In this
paper, we provide theoretical insights and extensive empirical evidence showing
that current OPL methods encounter severe optimization issues, particularly as
action spaces become large. We demonstrate that simpler weighted log-likelihood
objectives enjoy substantially better optimization properties and still recover
competitive, often superior, learned policies. Our findings emphasize the
necessity of explicitly addressing optimization considerations in the
development of OPL algorithms for large action spaces.
Ссылки и действия
Дополнительные ресурсы: