Meta Off-Policy Estimation

2508.07914v1 stat.ML, cs.IR, cs.LG, stat.ME 2025-08-13
Авторы:

Olivier Jeunen

Резюме на русском

## Контекст Meta-analysis является важной методологией в статистике, которая используется для объединения результатов независимых исследований для получения более точного и надежного оценки. Она применяется в различных областях, включая здравоохранение, образование и научные исследования. Однако, применение мета-анализа в области Off-Policy Estimation (OPE), которая используется для оценки политик в рекомендательных системах, еще является плодотворным, но недостаточно изученным направлением. Оценка политик в OPE является ключевым заданием, позволяющим производить безотклонную оценку онлайн-результатов, используя только offline-данные. Существуют многочисленные OPE-методы, включая Doubly Robust (DR), все они предлагают различные стратегии комбинирования данных значения (value-based) и политики (policy-based). Наша работа привносит новую точку зрения в комбинирование этих методов, с использованием модели meta-analysis, чтобы повысить точность и уменьшить неопределенность в оценке политик. ## Метод Мы предлагаем мета-аналитическую модель для комбинирования OPE-методов. Модель основывается на коррелированном фиксированных эффектов подходе, который учитывает зависимости между OPE-методами, вызванные общими данными. Мы применяем теорию оптимального взвешивания, чтобы вычислить лучшую линейную независимую оценку (BLUE) для оценки политики, а также построить соответствующую более точную и консервативную доверительную интервал. Модель формализует зависимости между OPE-методами и использует их для повышения точности оценки. Мы используем обобщенную квадратичную форму для моделирования этих зависимостей и применяем корреляционную модель для вычисления весов каждого метода. ## Результаты Мы проверили нашу модель на обоих симулированных и реальных данных. Для симулированных данных, мы синтезировали данные, которые подразумевают различные условия, в том числе различное количество данных, различные статистические модели и различные методы OPE. На реальных данных, мы использовали данные из рекомендательных систем, оценивая различные политики. Наши результаты показали, что мета-аналитическая модель позволяет повысить точность оценки политик в сравнении с использованием отдельных OPE-методов. Мы также показали, что доверительные интервалы, полученные с помощью нашей модели, являются более консервативными, что соответствует реальному распределению ошибок в OPE. ## Значимость Мета-аналитический подход может быть применен в различных областях, где требуется комбинирование независимых оценок, таких как здравоохранение, моделирование климата и рекомендательные системы. Мы показали, что наш подход может существенно повысить точность и уменьшить неопределен

Abstract

Off-policy estimation (OPE) methods enable unbiased offline evaluation of recommender systems, directly estimating the online reward some target policy would have obtained, from offline data and with statistical guarantees. The theoretical elegance of the framework combined with practical successes have led to a surge of interest, with many competing estimators now available to practitioners and researchers. Among these, Doubly Robust methods provide a prominent strategy to combine value- and policy-based estimators. In this work, we take an alternative perspective to combine a set of OPE estimators and their associated confidence intervals into a single, more accurate estimate. Our approach leverages a correlated fixed-effects meta-analysis framework, explicitly accounting for dependencies among estimators that arise due to shared data. This yields a best linear unbiased estimate (BLUE) of the target policy's value, along with an appropriately conservative confidence interval that reflects inter-estimator correlation. We validate our method on both simulated and real-world data, demonstrating improved statistical efficiency over existing individual estimators.

Ссылки и действия