DP-NCB: Privacy Preserving Fair Bandits

2508.03836v1 cs.LG, stat.ML 2025-08-09
Авторы:

Dhruv Sarkar, Nishant Pandey, Sayak Ray Chowdhury

Резюме на русском

## Контекст Многорукие бандиты (multi-armed bandits, MAB) являются основными инструментами для последовательного подбора решений в условиях неопределенности. Они находят применение в таких областях, как клинические испытания и персонализация решений. Однако в социально значимых сценариях, таких как личностная медицина или распределение ресурсов в социальных сетях, важны две ключевые стороны: приватность пользовательских данных и справедливость в выборе решений. До этого момента, ни одна из этих задач не была решена в единой модели. Традиционные алгоритмы приватности оптимизируют среднюю потерю (average regret), тогда как справедливость оценивается с помощью меры Нэша (Nash regret), которая лучше подходит для измерения неравенства в значениях пользователей. Нет алгоритма, который удовлетворял бы обоим этим критериям. Наша модель DP-NCB предлагает решение этой проблемы. ## Метод Мы предлагаем DP-NCB (Differentially Private Nash Confidence Bound) — новую архитектуру, которая гармонично объединяет приватность и справедливость в рамках многоруких бандитов. Алгоритм основывается на концепции Nash Confidence Bound (NCB), которая учитывает не только статистическую оценку для каждого бандита, но и взаимосвязь между ними. Для достижения приватности мы используем механизм Дифференциальной Приватности (Differential Privacy, DP), который защищает от вытекания индивидуальных данных. Метод работает как в локальной, так и в глобальной модели приватности, что делает его универсальным. Он не требует предварительного знания общего числа итераций, что делает его "anytime". ## Результаты Мы проводим эксперименты на синтетических данных, сравнивая DP-NCB с современными алгоритмами, оптимизирующими либо среднюю потерю (average regret), либо Nash regret. Результаты показывают, что DP-NCB выдает значительно меньшую Nash regret, чем существующие алгоритмы, при этом сохраняя приемлемую среднюю потерю. Мы также проверяем его поведение в задачах с разным числом бандитов и разным уровнем неопределенности. Доказательство теоретических формул подтверждает, что DP-NCB достигает оптимальных результатов в пределах логарифмических коэффициентов. ## Значимость DP-NCB показывает, что можно достичь целей справедливости и приватности одновременно, что отсутствовало в предыдущих работах. Этот алгоритм может применяться в сценариях, где требуется принятие решений в условиях неопределенности, но одновременно требуется защита данных и справедливость во взаимодействии с пользователями. Например, это может быть использовано в клинических испытаниях, рекламе или мобильных приложениях. Он устанавливает новую планку для дальнейших исследований в области приватных и с

Abstract

Multi-armed bandit algorithms are fundamental tools for sequential decision-making under uncertainty, with widespread applications across domains such as clinical trials and personalized decision-making. As bandit algorithms are increasingly deployed in these socially sensitive settings, it becomes critical to protect user data privacy and ensure fair treatment across decision rounds. While prior work has independently addressed privacy and fairness in bandit settings, the question of whether both objectives can be achieved simultaneously has remained largely open. Existing privacy-preserving bandit algorithms typically optimize average regret, a utilitarian measure, whereas fairness-aware approaches focus on minimizing Nash regret, which penalizes inequitable reward distributions, but often disregard privacy concerns. To bridge this gap, we introduce Differentially Private Nash Confidence Bound (DP-NCB)-a novel and unified algorithmic framework that simultaneously ensures $\epsilon$-differential privacy and achieves order-optimal Nash regret, matching known lower bounds up to logarithmic factors. The framework is sufficiently general to operate under both global and local differential privacy models, and is anytime, requiring no prior knowledge of the time horizon. We support our theoretical guarantees with simulations on synthetic bandit instances, showing that DP-NCB incurs substantially lower Nash regret than state-of-the-art baselines. Our results offer a principled foundation for designing bandit algorithms that are both privacy-preserving and fair, making them suitable for high-stakes, socially impactful applications.

Ссылки и действия