Off-Policy Learning in Large Action Spaces: Optimization Matters More Than Estimation

2509.03456v1 stat.ML, cs.LG 2025-09-05

Авторы:

Imad Aouali, Otmane Sakhi

Резюме на русском

## Контекст Контекст данной работы — это область **off-policy learning (OPL)**, используемая в **offline contextual bandits** для принятия решений. Офф-полити стандарта (off-policy evaluation, OPE) и офф-полити обучения (off-policy learning, OPL) являются ключевыми компонентами в этой области. Они позволяют оценивать и улучшать политики действий в условиях выбора данных, не требуя проведения экспериментов в реальном времени. Проблема, которая вдохновила написание данной работы, заключается в том, что несмотря на теоретические доказательства, оптимизация OPE-оценщиков не всегда приводит к получению лучших политик в трудных оптимизационных условиях. Мотивация заключается в том, что текущие алгоритмы OPL не всегда эффективно справляются с оптимизационными задачами в ситуациях, когда количество возможных действий (action spaces) становится очень велико. Это вызывает необходимость изучения оптимизационных аспектов в OPL. ## Метод В этой работе рассматриваются теоретические основы и эмпирические эксперименты, направленные на изучение оптимизационных аспектов в OPL. Особое внимание уделено анализу проблем, возникающих в оптимизационных ландшафтах в ситуациях с большим количеством возможных действий. Авторы предлагают новый анализ **weighted log-likelihood objectives**, показывая, что эти функции оптимизации обладают значительно лучшими свойствами оптимизации в сравнении с другими подходами. Рассматривается архитектура алгоритмов, включающую в себя стратегии, оптимизирующие эти целевые функции. Это позволяет получить более стабильные и эффективные результаты при обучении политик в больших пространствах действий. ## Результаты Эксперименты были проведены на различных симуляционных и реальных данных, включая сценарии с большим количеством действий. Авторы сравнили новую подходящую методику с существующими методами OPL. Основные полученные результаты показывают, что **weighted log-likelihood objectives** демонстрируют значительное улучшение в скорости и качестве оптимизации. В результате, полученные политики не только эффективнее, но и часто превосходят политики, полученные при использовании стандартных OPL-методов. Эти результаты демонстрируют, что оптимизация целевых функций имеет большое значение в OPL, особенно в сложности оптимизационных задач в больших пространствах действий. ## Значимость Полученные результаты имеют несколько важных приложений. Во-первых, они могут быть применены в **рекламных системах**, где необходимо выбирать оптимальные действия на основе данных, не требуя реального времени. Во-вторых, в **экономике**, где требуется оценивать результаты различных стратегий в условиях

Abstract

Off-policy evaluation (OPE) and off-policy learning (OPL) are foundational for decision-making in offline contextual bandits. Recent advances in OPL primarily optimize OPE estimators with improved statistical properties, assuming that better estimators inherently yield superior policies. Although theoretically justified, we argue this estimator-centric approach neglects a critical practical obstacle: challenging optimization landscapes. In this paper, we provide theoretical insights and extensive empirical evidence showing that current OPL methods encounter severe optimization issues, particularly as action spaces become large. We demonstrate that simpler weighted log-likelihood objectives enjoy substantially better optimization properties and still recover competitive, often superior, learned policies. Our findings emphasize the necessity of explicitly addressing optimization considerations in the development of OPL algorithms for large action spaces.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Off-Policy Learning in Large Action Spaces: Optimization Matters More Than Estimation

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Comparison of neural network training strategies for the simulation of dynamical...

Informative missingness and its implications in semi-supervised learning

Recurrent Neural Networks with Linear Structures for Electricity Price Forecasti...

Control Consistency Losses for Diffusion Bridges

Foundations of Diffusion Models in General State Spaces: A Self-Contained Introd...

Навигация