FraPPE: Fast and Efficient Preference-based Pure Exploration
2508.16487v1
cs.LG, cs.AI, math.OC, math.ST, stat.ML, stat.TH
2025-08-26
Авторы:
Udvas Das, Apurv Shukla, Debabrota Basu
Резюме на русском
## Контекст
Изучение Preference-based Pure Exploration (PrePEx) связано с задачами оптимального выбора в мультиобъектном бандите, где наблюдаемые векторы награды интерпретируются через преференциальный конус $\mathcal{C}$. Наиболее характерными задачами являются нахождение множества Парето-оптимальных решений с заданной уверенностью и поиск лидирующих вариантов. Несмотря на значительные усилия в области, существуют проблемы с вычислительной эффективностью и оптимальностью алгоритмов, особенно при работе с различными преференциальными конусами. Это затрудняет применение PrePEx в реальных задачах, где требуется высокая точность и скорость работы.
## Метод
Мы предлагаем FraPPE, алгоритм, который эффективно решает задачу минимизации и максимизации в рамках нижней границы сложности PrePEx. Алгоритм основывается на трех структурных свойствах нижней границы, которые позволяют её трактовать с помощью линейных оптимизационных проблем. Для оптимизации максимизационной задачи мы применяем метод Франка-Вольфа, который позволяет эффективно ускорить вычисления. Эти техники позволяют FraPPE решать maxmin-задачу в $\mathcal{O}(KL^{2})$ времени, что значительно сокращает сложность по сравнению с предыдущими методами.
## Результаты
На различных синтетических и реальных данных FraPPE продемонстрировал самые низкие стоимости разделения (sample complexity) среди существующих методов. Алгоритм показал способность идентифицировать Парето-оптимальные решения с заданной достоверностью в случаях, где другие алгоритмы не смогли этого достичь. Это демонстрирует высокую эффективность и надежность FraPPE.
## Значимость
Предложенный FraPPE может применяться в отраслях, где требуется быстрая и точная оптимизация в многомерных пространствах, например, в интернет-рекламе, в сегментации клиентов, в медицинской диагностике. Он обеспечивает высокую точность, эффективность и универсальность, что делает его значимым в сравнении с предыдущими алгоритмами. Будущие исследования будут сконцентрированы на расширении FraPPE для более сложных моделей и приложениях, а также на уточнении свойств, связанных с его устойчивостью и скоростью.
## Выводы
FraPPE успешно решает задачу PrePEx, достигая оптимальной сложности работы и эффективности. Это демонстрирует его значимость в приложениях, где требуется быстрая и точная оптимизация. Будущие работы будут сфокусированы на расширении метода и его применении в новых, более сложных сценариях.
Abstract
Preference-based Pure Exploration (PrePEx) aims to identify with a given
confidence level the set of Pareto optimal arms in a vector-valued (aka
multi-objective) bandit, where the reward vectors are ordered via a (given)
preference cone $\mathcal{C}$. Though PrePEx and its variants are well-studied,
there does not exist a computationally efficient algorithm that can optimally
track the existing lower bound for arbitrary preference cones. We successfully
fill this gap by efficiently solving the minimisation and maximisation problems
in the lower bound. First, we derive three structural properties of the lower
bound that yield a computationally tractable reduction of the minimisation
problem. Then, we deploy a Frank-Wolfe optimiser to accelerate the maximisation
problem in the lower bound. Together, these techniques solve the maxmin
optimisation problem in $\mathcal{O}(KL^{2})$ time for a bandit instance with
$K$ arms and $L$ dimensional reward, which is a significant acceleration over
the literature. We further prove that our proposed PrePEx algorithm, FraPPE,
asymptotically achieves the optimal sample complexity. Finally, we perform
numerical experiments across synthetic and real datasets demonstrating that
FraPPE achieves the lowest sample complexities to identify the exact Pareto set
among the existing algorithms.