📊 Статистика дайджестов
Всего дайджестов: 34123 Добавлено сегодня: 101
Последнее обновление: сегодня
Авторы:
Udvas Das, Apurv Shukla, Debabrota Basu
## Контекст
Изучение Preference-based Pure Exploration (PrePEx) связано с задачами оптимального выбора в мультиобъектном бандите, где наблюдаемые векторы награды интерпретируются через преференциальный конус $\mathcal{C}$. Наиболее характерными задачами являются нахождение множества Парето-оптимальных решений с заданной уверенностью и поиск лидирующих вариантов. Несмотря на значительные усилия в области, существуют проблемы с вычислительной эффективностью и оптимальностью алгоритмов, особенно при работе с различными преференциальными конусами. Это затрудняет применение PrePEx в реальных задачах, где требуется высокая точность и скорость работы.
## Метод
Мы предлагаем FraPPE, алгоритм, который эффективно решает задачу минимизации и максимизации в рамках нижней границы сложности PrePEx. Алгоритм основывается на трех структурных свойствах нижней границы, которые позволяют её трактовать с помощью линейных оптимизационных проблем. Для оптимизации максимизационной задачи мы применяем метод Франка-Вольфа, который позволяет эффективно ускорить вычисления. Эти техники позволяют FraPPE решать maxmin-задачу в $\mathcal{O}(KL^{2})$ времени, что значительно сокращает сложность по сравнению с предыдущими методами.
## Результаты
На различных синтетических и реальных данных FraPPE продемонстрировал самые низкие стоимости разделения (sample complexity) среди существующих методов. Алгоритм показал способность идентифицировать Парето-оптимальные решения с заданной достоверностью в случаях, где другие алгоритмы не смогли этого достичь. Это демонстрирует высокую эффективность и надежность FraPPE.
## Значимость
Предложенный FraPPE может применяться в отраслях, где требуется быстрая и точная оптимизация в многомерных пространствах, например, в интернет-рекламе, в сегментации клиентов, в медицинской диагностике. Он обеспечивает высокую точность, эффективность и универсальность, что делает его значимым в сравнении с предыдущими алгоритмами. Будущие исследования будут сконцентрированы на расширении FraPPE для более сложных моделей и приложениях, а также на уточнении свойств, связанных с его устойчивостью и скоростью.
## Выводы
FraPPE успешно решает задачу PrePEx, достигая оптимальной сложности работы и эффективности. Это демонстрирует его значимость в приложениях, где требуется быстрая и точная оптимизация. Будущие работы будут сфокусированы на расширении метода и его применении в новых, более сложных сценариях.
Annotation:
Preference-based Pure Exploration (PrePEx) aims to identify with a given
confidence level the set of Pareto optimal arms in a vector-valued (aka
multi-objective) bandit, where the reward vectors are ordered via a (given)
preference cone $\mathcal{C}$. Though PrePEx and its variants are well-studied,
there does not exist a computationally efficient algorithm that can optimally
track the existing lower bound for arbitrary preference cones. We successfully
fill this gap by efficiently solving the m...