Prescribe-then-Select: Adaptive Policy Selection for Contextual Stochastic Optimization

2509.08194v1 cs.LG, stat.ML 2025-09-12

Авторы:

Caio de Prospero Iglesias, Kimberly Villalobos Carballo, Dimitris Bertsimas

Резюме на русском

## Контекст Проблема выбора политики в контекстных стохастических оптимизациях (CSO) широко распространена в реальном мире. Здесь требуется принять решения, учитывая контекстные данные (ковариаты) и учесть жесткие ограничения на решения. Например, в случае новостного продавца (новостреда) или планирования перевозок требуется строить политики, которые будут эффективными в разных условиях. Однако в сложных реальных случаях каждая политика может работать лучше в определенных областях ковариатного пространства, но ни одна не будет превосходить всегда. Это подчеркивает необходимость способа адаптивного выбора политик. Наши работы затрагивают ряд тем: как построить модульную систему, позволяющую учитывать различные модели и использовать их вместе, и как обучать мета-политику, чтобы максимизировать производительность. ## Метод Мы предлагаем Prescribe-then-Select (PS), модульную систему, которая предназначена для выбора политик в CSO. Работа PS состоит из двух этапов. В первой этапе, "Prescribe", мы построим библиотеку кандидатских политик, которые могут быть использованы в разных условиях. Эти политики могут быть построены с использованием разных моделей или концепций оптимизации, например, текстовых политик или линейных моделей. Во втором этапе, "Select", мы обучаем мета-политику, используя методы кросс-валидации и ансамбли Optimal Policy Trees. Эта мета-политика выбирает лучшую политику для конкретного контекста. Мы реализуем нашу систему на двух типичных задачах CSO: новостреде и планировании перевозок. ## Результаты Мы проводили эксперименты на двух стандартных задачах CSO: single-stage newsvendor и two-stage shipment planning. Результаты показали, что PS **постоянно превосходит** сингулярные политики в регионах, где ковариатное пространство разнородно. Также, PS **сходится к превосходящей политике** в регионах, где существует единственная лучшая политика. Мы сравнили PS с другими методами, такими как линейные модели и широко известные политики, и показали, что наш подход дает значительные выигрыши в производительности. На основе этих результатов мы доказали, что наша система может эффективно адаптироваться к разным условиям и не только. ## Значимость Предлагаемый подход может быть применен в различных сферах, где требуется адаптивное принятие решений, например в логистике, финансах, здравоохранении и машинном обучении. PS избавляет от необходимости предварительного выбора одной "лучшей" политики, позволяя вместо этого строить модели, которые могут адаптироваться к разным условиям. Это приводит к **более высокой эффективности** и **гибкости** в принятии решений. Мы также обнаружили, что PS может применяться в слож

Abstract

We address the problem of policy selection in contextual stochastic optimization (CSO), where covariates are available as contextual information and decisions must satisfy hard feasibility constraints. In many CSO settings, multiple candidate policies--arising from different modeling paradigms--exhibit heterogeneous performance across the covariate space, with no single policy uniformly dominating. We propose Prescribe-then-Select (PS), a modular framework that first constructs a library of feasible candidate policies and then learns a meta-policy to select the best policy for the observed covariates. We implement the meta-policy using ensembles of Optimal Policy Trees trained via cross-validation on the training set, making policy choice entirely data-driven. Across two benchmark CSO problems--single-stage newsvendor and two-stage shipment planning--PS consistently outperforms the best single policy in heterogeneous regimes of the covariate space and converges to the dominant policy when such heterogeneity is absent. All the code to reproduce the results can be found at https://anonymous.4open.science/r/Prescribe-then-Select-TMLR.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Prescribe-then-Select: Adaptive Policy Selection for Contextual Stochastic Optimization

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Breaking Determinism: Stochastic Modeling for Reliable Off-Policy Evaluation in ...

Tuning-Free Structured Sparse Recovery of Multiple Measurement Vectors using Imp...

GaussDetect-LiNGAM:Causal Direction Identification without Gaussianity test

Parameter-Efficient Augment Plugin for Class-Incremental Learning

Mitigating the Curse of Detail: Scaling Arguments for Feature Learning and Sampl...

Навигация