DP-NCB: Privacy Preserving Fair Bandits
2508.03836v1
cs.LG, stat.ML
2025-08-09
Авторы:
Dhruv Sarkar, Nishant Pandey, Sayak Ray Chowdhury
Резюме на русском
## Контекст
Многорукие бандиты (multi-armed bandits, MAB) являются основными инструментами для последовательного подбора решений в условиях неопределенности. Они находят применение в таких областях, как клинические испытания и персонализация решений. Однако в социально значимых сценариях, таких как личностная медицина или распределение ресурсов в социальных сетях, важны две ключевые стороны: приватность пользовательских данных и справедливость в выборе решений. До этого момента, ни одна из этих задач не была решена в единой модели. Традиционные алгоритмы приватности оптимизируют среднюю потерю (average regret), тогда как справедливость оценивается с помощью меры Нэша (Nash regret), которая лучше подходит для измерения неравенства в значениях пользователей. Нет алгоритма, который удовлетворял бы обоим этим критериям. Наша модель DP-NCB предлагает решение этой проблемы.
## Метод
Мы предлагаем DP-NCB (Differentially Private Nash Confidence Bound) — новую архитектуру, которая гармонично объединяет приватность и справедливость в рамках многоруких бандитов. Алгоритм основывается на концепции Nash Confidence Bound (NCB), которая учитывает не только статистическую оценку для каждого бандита, но и взаимосвязь между ними. Для достижения приватности мы используем механизм Дифференциальной Приватности (Differential Privacy, DP), который защищает от вытекания индивидуальных данных. Метод работает как в локальной, так и в глобальной модели приватности, что делает его универсальным. Он не требует предварительного знания общего числа итераций, что делает его "anytime".
## Результаты
Мы проводим эксперименты на синтетических данных, сравнивая DP-NCB с современными алгоритмами, оптимизирующими либо среднюю потерю (average regret), либо Nash regret. Результаты показывают, что DP-NCB выдает значительно меньшую Nash regret, чем существующие алгоритмы, при этом сохраняя приемлемую среднюю потерю. Мы также проверяем его поведение в задачах с разным числом бандитов и разным уровнем неопределенности. Доказательство теоретических формул подтверждает, что DP-NCB достигает оптимальных результатов в пределах логарифмических коэффициентов.
## Значимость
DP-NCB показывает, что можно достичь целей справедливости и приватности одновременно, что отсутствовало в предыдущих работах. Этот алгоритм может применяться в сценариях, где требуется принятие решений в условиях неопределенности, но одновременно требуется защита данных и справедливость во взаимодействии с пользователями. Например, это может быть использовано в клинических испытаниях, рекламе или мобильных приложениях. Он устанавливает новую планку для дальнейших исследований в области приватных и с
Abstract
Multi-armed bandit algorithms are fundamental tools for sequential
decision-making under uncertainty, with widespread applications across domains
such as clinical trials and personalized decision-making. As bandit algorithms
are increasingly deployed in these socially sensitive settings, it becomes
critical to protect user data privacy and ensure fair treatment across decision
rounds. While prior work has independently addressed privacy and fairness in
bandit settings, the question of whether both objectives can be achieved
simultaneously has remained largely open. Existing privacy-preserving bandit
algorithms typically optimize average regret, a utilitarian measure, whereas
fairness-aware approaches focus on minimizing Nash regret, which penalizes
inequitable reward distributions, but often disregard privacy concerns.
To bridge this gap, we introduce Differentially Private Nash Confidence Bound
(DP-NCB)-a novel and unified algorithmic framework that simultaneously ensures
$\epsilon$-differential privacy and achieves order-optimal Nash regret,
matching known lower bounds up to logarithmic factors. The framework is
sufficiently general to operate under both global and local differential
privacy models, and is anytime, requiring no prior knowledge of the time
horizon. We support our theoretical guarantees with simulations on synthetic
bandit instances, showing that DP-NCB incurs substantially lower Nash regret
than state-of-the-art baselines. Our results offer a principled foundation for
designing bandit algorithms that are both privacy-preserving and fair, making
them suitable for high-stakes, socially impactful applications.
Ссылки и действия
Дополнительные ресурсы: