FraPPE: Fast and Efficient Preference-based Pure Exploration

2508.16487v1 cs.LG, cs.AI, math.OC, math.ST, stat.ML, stat.TH 2025-08-26

Авторы:

Udvas Das, Apurv Shukla, Debabrota Basu

Резюме на русском

## Контекст Изучение Preference-based Pure Exploration (PrePEx) связано с задачами оптимального выбора в мультиобъектном бандите, где наблюдаемые векторы награды интерпретируются через преференциальный конус $\mathcal{C}$. Наиболее характерными задачами являются нахождение множества Парето-оптимальных решений с заданной уверенностью и поиск лидирующих вариантов. Несмотря на значительные усилия в области, существуют проблемы с вычислительной эффективностью и оптимальностью алгоритмов, особенно при работе с различными преференциальными конусами. Это затрудняет применение PrePEx в реальных задачах, где требуется высокая точность и скорость работы. ## Метод Мы предлагаем FraPPE, алгоритм, который эффективно решает задачу минимизации и максимизации в рамках нижней границы сложности PrePEx. Алгоритм основывается на трех структурных свойствах нижней границы, которые позволяют её трактовать с помощью линейных оптимизационных проблем. Для оптимизации максимизационной задачи мы применяем метод Франка-Вольфа, который позволяет эффективно ускорить вычисления. Эти техники позволяют FraPPE решать maxmin-задачу в $\mathcal{O}(KL^{2})$ времени, что значительно сокращает сложность по сравнению с предыдущими методами. ## Результаты На различных синтетических и реальных данных FraPPE продемонстрировал самые низкие стоимости разделения (sample complexity) среди существующих методов. Алгоритм показал способность идентифицировать Парето-оптимальные решения с заданной достоверностью в случаях, где другие алгоритмы не смогли этого достичь. Это демонстрирует высокую эффективность и надежность FraPPE. ## Значимость Предложенный FraPPE может применяться в отраслях, где требуется быстрая и точная оптимизация в многомерных пространствах, например, в интернет-рекламе, в сегментации клиентов, в медицинской диагностике. Он обеспечивает высокую точность, эффективность и универсальность, что делает его значимым в сравнении с предыдущими алгоритмами. Будущие исследования будут сконцентрированы на расширении FraPPE для более сложных моделей и приложениях, а также на уточнении свойств, связанных с его устойчивостью и скоростью. ## Выводы FraPPE успешно решает задачу PrePEx, достигая оптимальной сложности работы и эффективности. Это демонстрирует его значимость в приложениях, где требуется быстрая и точная оптимизация. Будущие работы будут сфокусированы на расширении метода и его применении в новых, более сложных сценариях.

Abstract

Preference-based Pure Exploration (PrePEx) aims to identify with a given confidence level the set of Pareto optimal arms in a vector-valued (aka multi-objective) bandit, where the reward vectors are ordered via a (given) preference cone $\mathcal{C}$. Though PrePEx and its variants are well-studied, there does not exist a computationally efficient algorithm that can optimally track the existing lower bound for arbitrary preference cones. We successfully fill this gap by efficiently solving the minimisation and maximisation problems in the lower bound. First, we derive three structural properties of the lower bound that yield a computationally tractable reduction of the minimisation problem. Then, we deploy a Frank-Wolfe optimiser to accelerate the maximisation problem in the lower bound. Together, these techniques solve the maxmin optimisation problem in $\mathcal{O}(KL^{2})$ time for a bandit instance with $K$ arms and $L$ dimensional reward, which is a significant acceleration over the literature. We further prove that our proposed PrePEx algorithm, FraPPE, asymptotically achieves the optimal sample complexity. Finally, we perform numerical experiments across synthetic and real datasets demonstrating that FraPPE achieves the lowest sample complexities to identify the exact Pareto set among the existing algorithms.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Резюме на русском

Abstract

Ссылки и действия

Навигация