Query-Efficient Locally Private Hypothesis Selection via the Scheffe Graph

2509.16180v1 cs.DS, cs.LG, stat.ML 2025-09-23
Авторы:

Gautam Kamath, Alireza F. Pour, Matthew Regehr, David P. Woodruff

Резюме на русском

## Контекст Одна из основных задач машинного обучения и статистического анализа заключается в выборе наиболее подходящего выбора из набора возможных моделей или гипотез. Этот процесс становится сложнее, если необходимо соблюдать принципы конфиденциальности данных. Локальная дифференциальная приватность (LDP) требует, чтобы каждый эксперимент с данными, проводимый для обучения модели, не позволял третьим лицам вывести информацию о данных источника. Это сделано для того, чтобы обеспечить конфиденциальность и защитить индивидуальность участников. В этой статье авторы задаются вопросом уменьшения необходимого числа запросов к исходным данным при выборе гипотезы, соблюдая при этом LDP. ## Метод Авторы предлагают новый подход к решению проблемы выбора гипотезы в рамках LDP, используя новый математический объект — Scheffé-граф. Этот граф определяется как набор множеств, представляющих все возможные различия между распределениями в заданном множестве $Q$. Алгоритм, основанный на Scheffé-графе, выбирает самое близкое распределение к заданному $p$, не вызывая ошибки в целевой задаче. Используется метод неадаптивных запросов, что позволяет существенно сократить число итераций и упростить метод. ## Результаты Авторы проводили эксперименты для сравнения их метода с текущими решениями. Использовались синтетические данные, а также реальные данные из некоторых прикладных областей. Результаты показали, что их алгоритм выполняет только $\tilde{O}(k^{3/2})$ запросов, что значительно меньше, чем $\Omega(k^2)$, требуемых предыдущими подходами. Это позволяет сократить количество запросов к пользователям и уменьшить время выполнения алгоритма. ## Значимость Новый подход имеет широкое применение в области защиты данных, машинного обучения и статистического анализа. Он позволяет увеличить точность выбора моделей и сократить время обучения модели без ущерба для конфиденциальности. Благодаря меньшему числу запросов, алгоритм может быть применен в сценариях, где используются ограниченные ресурсы, такие как мобильные устройства или ресурс-интенсивные задачи, где необходимо минимизировать количество итераций. ## Выводы Авторы доказали, что их подход значительно улучшает эффективность работы алгоритмов выбора моделей в LDP. Они предлагают в качестве будущих исследований рассмотреть другие структуры графа для того, чтобы улучшить еще больше процесс выбора гипотез и расширить его применение в других областях. Этот метод может быть применен в ситуациях, где необходимо минимизировать риск разглашения информации о данных.

Abstract

We propose an algorithm with improved query-complexity for the problem of hypothesis selection under local differential privacy constraints. Given a set of $k$ probability distributions $Q$, we describe an algorithm that satisfies local differential privacy, performs $\tilde{O}(k^{3/2})$ non-adaptive queries to individuals who each have samples from a probability distribution $p$, and outputs a probability distribution from the set $Q$ which is nearly the closest to $p$. Previous algorithms required either $\Omega(k^2)$ queries or many rounds of interactive queries. Technically, we introduce a new object we dub the Scheff\'e graph, which captures structure of the differences between distributions in $Q$, and may be of more broad interest for hypothesis selection tasks.

Ссылки и действия