Differential Privacy in Federated Learning: Mitigating Inference Attacks with Randomized Response
2509.13987v1
cs.CR, cs.AI
2025-09-19
Авторы:
Ozer Ozturk, Busra Buyuktanir, Gozde Karatas Baydogmus, Kazim Yildiz
Резюме на русском
## Контекст
В современной машинному обучению требуется большой объем данных для обеспечения высокой точности моделей. Эти данные часто собираются у клиентов, работающих в распределенных архитектурах, которые включают серверы и клиенты. Однако хранение данных на центральном сервере создает проблемы с безопасностью и конфиденциальностью. Для решения этой проблемы была предложена федеративная обучающая архитектура. В этой модели каждый клиент обучает локальную модель на своих данных, а затем периодически отправляет её серверу. На стороне сервера происходит объединение этих моделей с помощью алгоритмов федеративной агрегации, и в результате получается глобальная модель, которая в свою очередь распространяется обратно к клиентам. Хотя данные остаются на клиентских устройствах, что повышает безопасность, всё равно существуют проблемы, такие как возможность проведения инференциальных атак на модели, что может привести к утечке информации. Данная статья рассматривает применение понятия дифференциальной приватности в этой области для уменьшения риска информационных атак и описывает результаты экспериментов с использованием техники Randomized Response.
## Метод
В данном исследовании предлагается использовать метод дифференциальной приватности для защиты данных в федеративном обучении. Алгоритм Randomized Response используется для реализации дифференциальной приватности. Для совместимости с федеративной структурой обучения, алгоритм дифференциальной приватности интегрируется в процесс обновления локальных моделей. Эта интеграция позволяет выполнять атаки взаимодействия между клиентами и сервером, при этом снижая риск вытекающей информации. Федеративный агрегационный алгоритм duCBA используется для объединения локальных моделей. Эксперименты проводятся с различными значениями epsilon, чтобы оценить торговую марку между защитой конфиденциальности и производительностью модели.
## Результаты
В ходе экспериментов было проанализировано влияние различных значений epsilon на точность модели и баланс классов. Проведенные эксперименты показали, что при уменьшении значения epsilon, которое определяет уровень приватности, снижается точность модели, появляются неодинаковые классы в классификации. Это указывает на то, что слишком высокий уровень приватности может привести к практическим проблемам. Таким образом, требуется баланс между безопасностью и производительностью, который достигается с учетом конкретных значений epsilon.
## Значимость
Результаты данного исследования могут быть применены в различных областях, где требуется обеспечение конфиденциальности данных, например, в здравоохранении, финансовы
Abstract
Machine learning models used for distributed architectures consisting of
servers and clients require large amounts of data to achieve high accuracy.
Data obtained from clients are collected on a central server for model
training. However, storing data on a central server raises concerns about
security and privacy. To address this issue, a federated learning architecture
has been proposed. In federated learning, each client trains a local model
using its own data. The trained models are periodically transmitted to the
central server. The server then combines the received models using federated
aggregation algorithms to obtain a global model. This global model is
distributed back to the clients, and the process continues in a cyclical
manner. Although preventing data from leaving the clients enhances security,
certain concerns still remain. Attackers can perform inference attacks on the
obtained models to approximate the training dataset, potentially causing data
leakage. In this study, differential privacy was applied to address the
aforementioned security vulnerability, and a performance analysis was
conducted. The Data-Unaware Classification Based on Association (duCBA)
algorithm was used as the federated aggregation method. Differential privacy
was implemented on the data using the Randomized Response technique, and the
trade-off between security and performance was examined under different epsilon
values. As the epsilon value decreased, the model accuracy declined, and class
prediction imbalances were observed. This indicates that higher levels of
privacy do not always lead to practical outcomes and that the balance between
security and performance must be carefully considered.
Ссылки и действия
Дополнительные ресурсы: