Differential Privacy in Federated Learning: Mitigating Inference Attacks with Randomized Response

2509.13987v1 cs.CR, cs.AI 2025-09-19
Авторы:

Ozer Ozturk, Busra Buyuktanir, Gozde Karatas Baydogmus, Kazim Yildiz

Резюме на русском

## Контекст В современной машинному обучению требуется большой объем данных для обеспечения высокой точности моделей. Эти данные часто собираются у клиентов, работающих в распределенных архитектурах, которые включают серверы и клиенты. Однако хранение данных на центральном сервере создает проблемы с безопасностью и конфиденциальностью. Для решения этой проблемы была предложена федеративная обучающая архитектура. В этой модели каждый клиент обучает локальную модель на своих данных, а затем периодически отправляет её серверу. На стороне сервера происходит объединение этих моделей с помощью алгоритмов федеративной агрегации, и в результате получается глобальная модель, которая в свою очередь распространяется обратно к клиентам. Хотя данные остаются на клиентских устройствах, что повышает безопасность, всё равно существуют проблемы, такие как возможность проведения инференциальных атак на модели, что может привести к утечке информации. Данная статья рассматривает применение понятия дифференциальной приватности в этой области для уменьшения риска информационных атак и описывает результаты экспериментов с использованием техники Randomized Response. ## Метод В данном исследовании предлагается использовать метод дифференциальной приватности для защиты данных в федеративном обучении. Алгоритм Randomized Response используется для реализации дифференциальной приватности. Для совместимости с федеративной структурой обучения, алгоритм дифференциальной приватности интегрируется в процесс обновления локальных моделей. Эта интеграция позволяет выполнять атаки взаимодействия между клиентами и сервером, при этом снижая риск вытекающей информации. Федеративный агрегационный алгоритм duCBA используется для объединения локальных моделей. Эксперименты проводятся с различными значениями epsilon, чтобы оценить торговую марку между защитой конфиденциальности и производительностью модели. ## Результаты В ходе экспериментов было проанализировано влияние различных значений epsilon на точность модели и баланс классов. Проведенные эксперименты показали, что при уменьшении значения epsilon, которое определяет уровень приватности, снижается точность модели, появляются неодинаковые классы в классификации. Это указывает на то, что слишком высокий уровень приватности может привести к практическим проблемам. Таким образом, требуется баланс между безопасностью и производительностью, который достигается с учетом конкретных значений epsilon. ## Значимость Результаты данного исследования могут быть применены в различных областях, где требуется обеспечение конфиденциальности данных, например, в здравоохранении, финансовы

Abstract

Machine learning models used for distributed architectures consisting of servers and clients require large amounts of data to achieve high accuracy. Data obtained from clients are collected on a central server for model training. However, storing data on a central server raises concerns about security and privacy. To address this issue, a federated learning architecture has been proposed. In federated learning, each client trains a local model using its own data. The trained models are periodically transmitted to the central server. The server then combines the received models using federated aggregation algorithms to obtain a global model. This global model is distributed back to the clients, and the process continues in a cyclical manner. Although preventing data from leaving the clients enhances security, certain concerns still remain. Attackers can perform inference attacks on the obtained models to approximate the training dataset, potentially causing data leakage. In this study, differential privacy was applied to address the aforementioned security vulnerability, and a performance analysis was conducted. The Data-Unaware Classification Based on Association (duCBA) algorithm was used as the federated aggregation method. Differential privacy was implemented on the data using the Randomized Response technique, and the trade-off between security and performance was examined under different epsilon values. As the epsilon value decreased, the model accuracy declined, and class prediction imbalances were observed. This indicates that higher levels of privacy do not always lead to practical outcomes and that the balance between security and performance must be carefully considered.

Ссылки и действия