Prescribe-then-Select: Adaptive Policy Selection for Contextual Stochastic Optimization
2509.08194v1
cs.LG, stat.ML
2025-09-12
Авторы:
Caio de Prospero Iglesias, Kimberly Villalobos Carballo, Dimitris Bertsimas
Резюме на русском
## Контекст
Проблема выбора политики в контекстных стохастических оптимизациях (CSO) широко распространена в реальном мире. Здесь требуется принять решения, учитывая контекстные данные (ковариаты) и учесть жесткие ограничения на решения. Например, в случае новостного продавца (новостреда) или планирования перевозок требуется строить политики, которые будут эффективными в разных условиях. Однако в сложных реальных случаях каждая политика может работать лучше в определенных областях ковариатного пространства, но ни одна не будет превосходить всегда. Это подчеркивает необходимость способа адаптивного выбора политик. Наши работы затрагивают ряд тем: как построить модульную систему, позволяющую учитывать различные модели и использовать их вместе, и как обучать мета-политику, чтобы максимизировать производительность.
## Метод
Мы предлагаем Prescribe-then-Select (PS), модульную систему, которая предназначена для выбора политик в CSO. Работа PS состоит из двух этапов. В первой этапе, "Prescribe", мы построим библиотеку кандидатских политик, которые могут быть использованы в разных условиях. Эти политики могут быть построены с использованием разных моделей или концепций оптимизации, например, текстовых политик или линейных моделей. Во втором этапе, "Select", мы обучаем мета-политику, используя методы кросс-валидации и ансамбли Optimal Policy Trees. Эта мета-политика выбирает лучшую политику для конкретного контекста. Мы реализуем нашу систему на двух типичных задачах CSO: новостреде и планировании перевозок.
## Результаты
Мы проводили эксперименты на двух стандартных задачах CSO: single-stage newsvendor и two-stage shipment planning. Результаты показали, что PS **постоянно превосходит** сингулярные политики в регионах, где ковариатное пространство разнородно. Также, PS **сходится к превосходящей политике** в регионах, где существует единственная лучшая политика. Мы сравнили PS с другими методами, такими как линейные модели и широко известные политики, и показали, что наш подход дает значительные выигрыши в производительности. На основе этих результатов мы доказали, что наша система может эффективно адаптироваться к разным условиям и не только.
## Значимость
Предлагаемый подход может быть применен в различных сферах, где требуется адаптивное принятие решений, например в логистике, финансах, здравоохранении и машинном обучении. PS избавляет от необходимости предварительного выбора одной "лучшей" политики, позволяя вместо этого строить модели, которые могут адаптироваться к разным условиям. Это приводит к **более высокой эффективности** и **гибкости** в принятии решений. Мы также обнаружили, что PS может применяться в слож
Abstract
We address the problem of policy selection in contextual stochastic
optimization (CSO), where covariates are available as contextual information
and decisions must satisfy hard feasibility constraints. In many CSO settings,
multiple candidate policies--arising from different modeling paradigms--exhibit
heterogeneous performance across the covariate space, with no single policy
uniformly dominating. We propose Prescribe-then-Select (PS), a modular
framework that first constructs a library of feasible candidate policies and
then learns a meta-policy to select the best policy for the observed
covariates. We implement the meta-policy using ensembles of Optimal Policy
Trees trained via cross-validation on the training set, making policy choice
entirely data-driven. Across two benchmark CSO problems--single-stage
newsvendor and two-stage shipment planning--PS consistently outperforms the
best single policy in heterogeneous regimes of the covariate space and
converges to the dominant policy when such heterogeneity is absent. All the
code to reproduce the results can be found at
https://anonymous.4open.science/r/Prescribe-then-Select-TMLR.
Ссылки и действия
Дополнительные ресурсы: