Can Federated Learning Safeguard Private Data in LLM Training? Vulnerabilities, Attacks, and Defense Evaluation

2509.20680v1 cs.LG, cs.CL, cs.CR 2025-09-27
Авторы:

Wenkai Guo, Xuefeng Liu, Haolin Wang, Jianwei Niu, Shaojie Tang, Jing Yuan

Резюме на русском

## Контекст Федеративное обучение (FL) является привлекательным подходом для обучения локальными данными больших языковых моделей (LLM), которые широко используются в сферах, требующих высокой конфиденциальности, таких как медицина и финансы. Организации часто не желают делиться своими данными, что делает централизованное обучение невозможным. Вместо этого FL позволяет клиентам совместно обучать модели, не раскрывая свои данные, используя только параметры модели для обучения. Хотя FL обеспечивает приватность, направленную на защиту локальных данных, оно не является иммунным к атакам. Целевой объект исследования заключается в оценке рисков для приватности при использовании FL для обучения LLM и разработке эффективных методов защиты. ## Метод Использовались стандартные метрики для оценки риска вытекающих данных (дата-ликиджинг), включая вероятность выдачи следующего токена и методы генерации текста. Набор экспериментов включал сравнение разных моделей FL, включая те, которые использовали безопасные методы обучения, такие как регуляризация и способы вывода неожиданности. Были изучены различные модели и наборы данных, включая наборы данных, предназначенные для секретного использования в бизнес-приложениях. Основным подходом была оценка степени утечки данных при использовании FL в защищенных сценариях обучения. ## Результаты Эксперименты показали, что атаки на FL могут успешно извлечь данные из глобального модели, даже без особых техник. Утечка данных увеличивается в зависимости от размера модели и числа клиентов в сети FL. Особенно эффективными оказались атаки, основанные на простой модели генерации текста, которая может декодировать входные данные из обучающей выборки. Добавление безопасных методов, таких как различная частота вывода и регуляризация, снижают утечку, но не полностью устраняют ее. Кроме того, применение безопасных моделей с адаптивным выводом существенно снижает риск, но не гарантирует полной защиты. ## Значимость Результаты имеют практическое значение для разработчиков, которые используют FL для обучения LLM. Они подчеркивают необходимость в разработке безопасных технологий для защиты конфиденциальных данных в процессе обучения. Выявленные утечки могут иметь серьезные последствия в сферах, где конфиденциальность критическа, таких как здравоохранение и финансы. Эта работа демонстрирует, что FL не является идеальным средством для защиты приватности в обучении LLM и подчеркивает важность продолжительных исследований в этой области. ## Выводы Несмотря на привлекательность FL для обучения LLM с локальными данными, оно не гарантирует за

Abstract

Fine-tuning large language models (LLMs) with local data is a widely adopted approach for organizations seeking to adapt LLMs to their specific domains. Given the shared characteristics in data across different organizations, the idea of collaboratively fine-tuning an LLM using data from multiple sources presents an appealing opportunity. However, organizations are often reluctant to share local data, making centralized fine-tuning impractical. Federated learning (FL), a privacy-preserving framework, enables clients to retain local data while sharing only model parameters for collaborative training, offering a potential solution. While fine-tuning LLMs on centralized datasets risks data leakage through next-token prediction, the iterative aggregation process in FL results in a global model that encapsulates generalized knowledge, which some believe protects client privacy. In this paper, however, we present contradictory findings through extensive experiments. We show that attackers can still extract training data from the global model, even using straightforward generation methods, with leakage increasing as the model size grows. Moreover, we introduce an enhanced attack strategy tailored to FL, which tracks global model updates during training to intensify privacy leakage. To mitigate these risks, we evaluate privacy-preserving techniques in FL, including differential privacy, regularization-constrained updates and adopting LLMs with safety alignment. Our results provide valuable insights and practical guidelines for reducing privacy risks when training LLMs with FL.

Ссылки и действия

Связанные статьи

Privacy-Aware In-Context Learning for Large Language Models

Резюме научной статьи ====================== ## Контекст Large language models (LLMs) являются мощными инструментами д...

2025-09-19