Oblivionis: A Lightweight Learning and Unlearning Framework for Federated Large Language Models

2508.08875v1 cs.LG, cs.AI, cs.CR 2025-08-14
Авторы:

Fuyao Zhang, Xinyu Yan, Tiantong Wu, Wenjie Li, Tianxiang Chen, Yang Cao, Ran Yan, Longtao Huang, Wei Yang Bryan Lim, Qiang Yang

Резюме на русском

## Контекст Large Language Models (LLMs) широко используются в сегменте машинного обучения для решения различных задач, от генерации текста до анализа данных. Одной из особенностей их развития является использование Federated Learning (FL) для оптимизации моделей с применением закрытых, задатковых данных. Это позволяет улучшить модели, не теряя приватность пользователей. Однако, несмотря на эффективность FL, существуют проблемы, связанные с нормативным соответствием (например, GDPR), который требует удаления конкретных данных по запросу. Избавление от такой информации в системах FL является сложной задачей из-за распределенной структуры, жестких требований к приватности и хаотичности взаимодействия клиентов. Из этого порождается необходимость в разработке специальных методов для регулярного удаления данных в моделях LLMs. ## Метод Oblivionis предлагает уникальный подход к обучению и удалению в системах FL. Он рассматривает обучение и удаление как два связанных целевые задачи, которые могут быть решены одновременно. Методология включает в себя шесть алгоритмов FL и пять механизмов удаления данных, которые оцениваются в рамках одной архитектуры. Архитектура Oblivionis гармонично объединяет эти процессы, используя техники градиентного оптимизации и адаптивных методов для обеспечения эффективного удаления данных. Выбор алгоритмов и подходов производится с учетом уровня затрат, эффективности и регулируемости. ## Результаты Набор экспериментов был проведен для оценки эффективности Oblivionis. Использовались различные типы данных, включая тексты и модели с разным уровнем нагрузки. Основным показателем стала степень "забытости" модели после удаления данных и сохранение ее качества. Результаты показали, что Oblivionis превосходит локальное обучение по параметрам быстродействия и удаления данных. Дополнительная сравнительная таблица, в которой представляются результаты разных алгоритмов, демонстрирует преимущества Oblivionis в сравнении с другими подходами. ## Значимость Oblivionis может применяться в сферах, где важно соблюдение юридических норм, таких как GDPR. Его особенностью является возможность выборочного удаления данных без существенного потери модельной эффективности. Этот подход может использоваться в системах с большим объемом пользовательских данных, таких как социальные сети, здравоохранение и финансовые системы. Важно отметить, что Oblivionis не только повышает уровень доверия к моделям, но и упрощает требования к управлению данными. ## Выводы Oblivionis представляет собой продвинутый подход к обучению и удалению данных в федеративных LLM-системах. Он успешно решает про

Abstract

Large Language Models (LLMs) increasingly leverage Federated Learning (FL) to utilize private, task-specific datasets for fine-tuning while preserving data privacy. However, while federated LLM frameworks effectively enable collaborative training without raw data sharing, they critically lack built-in mechanisms for regulatory compliance like GDPR's right to be forgotten. Integrating private data heightens concerns over data quality and long-term governance, yet existing distributed training frameworks offer no principled way to selectively remove specific client contributions post-training. Due to distributed data silos, stringent privacy constraints, and the intricacies of interdependent model aggregation, federated LLM unlearning is significantly more complex than centralized LLM unlearning. To address this gap, we introduce Oblivionis, a lightweight learning and unlearning framework that enables clients to selectively remove specific private data during federated LLM training, enhancing trustworthiness and regulatory compliance. By unifying FL and unlearning as a dual optimization objective, we incorporate 6 FL and 5 unlearning algorithms for comprehensive evaluation and comparative analysis, establishing a robust pipeline for federated LLM unlearning. Extensive experiments demonstrate that Oblivionis outperforms local training, achieving a robust balance between forgetting efficacy and model utility, with cross-algorithm comparisons providing clear directions for future LLM development.

Ссылки и действия