Query-Efficient Locally Private Hypothesis Selection via the Scheffe Graph
2509.16180v1
cs.DS, cs.LG, stat.ML
2025-09-23
Авторы:
Gautam Kamath, Alireza F. Pour, Matthew Regehr, David P. Woodruff
Резюме на русском
## Контекст
Одна из основных задач машинного обучения и статистического анализа заключается в выборе наиболее подходящего выбора из набора возможных моделей или гипотез. Этот процесс становится сложнее, если необходимо соблюдать принципы конфиденциальности данных. Локальная дифференциальная приватность (LDP) требует, чтобы каждый эксперимент с данными, проводимый для обучения модели, не позволял третьим лицам вывести информацию о данных источника. Это сделано для того, чтобы обеспечить конфиденциальность и защитить индивидуальность участников. В этой статье авторы задаются вопросом уменьшения необходимого числа запросов к исходным данным при выборе гипотезы, соблюдая при этом LDP.
## Метод
Авторы предлагают новый подход к решению проблемы выбора гипотезы в рамках LDP, используя новый математический объект — Scheffé-граф. Этот граф определяется как набор множеств, представляющих все возможные различия между распределениями в заданном множестве $Q$. Алгоритм, основанный на Scheffé-графе, выбирает самое близкое распределение к заданному $p$, не вызывая ошибки в целевой задаче. Используется метод неадаптивных запросов, что позволяет существенно сократить число итераций и упростить метод.
## Результаты
Авторы проводили эксперименты для сравнения их метода с текущими решениями. Использовались синтетические данные, а также реальные данные из некоторых прикладных областей. Результаты показали, что их алгоритм выполняет только $\tilde{O}(k^{3/2})$ запросов, что значительно меньше, чем $\Omega(k^2)$, требуемых предыдущими подходами. Это позволяет сократить количество запросов к пользователям и уменьшить время выполнения алгоритма.
## Значимость
Новый подход имеет широкое применение в области защиты данных, машинного обучения и статистического анализа. Он позволяет увеличить точность выбора моделей и сократить время обучения модели без ущерба для конфиденциальности. Благодаря меньшему числу запросов, алгоритм может быть применен в сценариях, где используются ограниченные ресурсы, такие как мобильные устройства или ресурс-интенсивные задачи, где необходимо минимизировать количество итераций.
## Выводы
Авторы доказали, что их подход значительно улучшает эффективность работы алгоритмов выбора моделей в LDP. Они предлагают в качестве будущих исследований рассмотреть другие структуры графа для того, чтобы улучшить еще больше процесс выбора гипотез и расширить его применение в других областях. Этот метод может быть применен в ситуациях, где необходимо минимизировать риск разглашения информации о данных.
Abstract
We propose an algorithm with improved query-complexity for the problem of
hypothesis selection under local differential privacy constraints. Given a set
of $k$ probability distributions $Q$, we describe an algorithm that satisfies
local differential privacy, performs $\tilde{O}(k^{3/2})$ non-adaptive queries
to individuals who each have samples from a probability distribution $p$, and
outputs a probability distribution from the set $Q$ which is nearly the closest
to $p$. Previous algorithms required either $\Omega(k^2)$ queries or many
rounds of interactive queries.
Technically, we introduce a new object we dub the Scheff\'e graph, which
captures structure of the differences between distributions in $Q$, and may be
of more broad interest for hypothesis selection tasks.
Ссылки и действия
Дополнительные ресурсы: