Meta Off-Policy Estimation
2508.07914v1
stat.ML, cs.IR, cs.LG, stat.ME
2025-08-13
Авторы:
Olivier Jeunen
Резюме на русском
## Контекст
Meta-analysis является важной методологией в статистике, которая используется для объединения результатов независимых исследований для получения более точного и надежного оценки. Она применяется в различных областях, включая здравоохранение, образование и научные исследования. Однако, применение мета-анализа в области Off-Policy Estimation (OPE), которая используется для оценки политик в рекомендательных системах, еще является плодотворным, но недостаточно изученным направлением. Оценка политик в OPE является ключевым заданием, позволяющим производить безотклонную оценку онлайн-результатов, используя только offline-данные. Существуют многочисленные OPE-методы, включая Doubly Robust (DR), все они предлагают различные стратегии комбинирования данных значения (value-based) и политики (policy-based). Наша работа привносит новую точку зрения в комбинирование этих методов, с использованием модели meta-analysis, чтобы повысить точность и уменьшить неопределенность в оценке политик.
## Метод
Мы предлагаем мета-аналитическую модель для комбинирования OPE-методов. Модель основывается на коррелированном фиксированных эффектов подходе, который учитывает зависимости между OPE-методами, вызванные общими данными. Мы применяем теорию оптимального взвешивания, чтобы вычислить лучшую линейную независимую оценку (BLUE) для оценки политики, а также построить соответствующую более точную и консервативную доверительную интервал. Модель формализует зависимости между OPE-методами и использует их для повышения точности оценки. Мы используем обобщенную квадратичную форму для моделирования этих зависимостей и применяем корреляционную модель для вычисления весов каждого метода.
## Результаты
Мы проверили нашу модель на обоих симулированных и реальных данных. Для симулированных данных, мы синтезировали данные, которые подразумевают различные условия, в том числе различное количество данных, различные статистические модели и различные методы OPE. На реальных данных, мы использовали данные из рекомендательных систем, оценивая различные политики. Наши результаты показали, что мета-аналитическая модель позволяет повысить точность оценки политик в сравнении с использованием отдельных OPE-методов. Мы также показали, что доверительные интервалы, полученные с помощью нашей модели, являются более консервативными, что соответствует реальному распределению ошибок в OPE.
## Значимость
Мета-аналитический подход может быть применен в различных областях, где требуется комбинирование независимых оценок, таких как здравоохранение, моделирование климата и рекомендательные системы. Мы показали, что наш подход может существенно повысить точность и уменьшить неопределен
Abstract
Off-policy estimation (OPE) methods enable unbiased offline evaluation of
recommender systems, directly estimating the online reward some target policy
would have obtained, from offline data and with statistical guarantees. The
theoretical elegance of the framework combined with practical successes have
led to a surge of interest, with many competing estimators now available to
practitioners and researchers. Among these, Doubly Robust methods provide a
prominent strategy to combine value- and policy-based estimators.
In this work, we take an alternative perspective to combine a set of OPE
estimators and their associated confidence intervals into a single, more
accurate estimate. Our approach leverages a correlated fixed-effects
meta-analysis framework, explicitly accounting for dependencies among
estimators that arise due to shared data. This yields a best linear unbiased
estimate (BLUE) of the target policy's value, along with an appropriately
conservative confidence interval that reflects inter-estimator correlation. We
validate our method on both simulated and real-world data, demonstrating
improved statistical efficiency over existing individual estimators.