Oblivionis: A Lightweight Learning and Unlearning Framework for Federated Large Language Models
2508.08875v1
cs.LG, cs.AI, cs.CR
2025-08-14
Авторы:
Fuyao Zhang, Xinyu Yan, Tiantong Wu, Wenjie Li, Tianxiang Chen, Yang Cao, Ran Yan, Longtao Huang, Wei Yang Bryan Lim, Qiang Yang
Резюме на русском
## Контекст
Large Language Models (LLMs) широко используются в сегменте машинного обучения для решения различных задач, от генерации текста до анализа данных. Одной из особенностей их развития является использование Federated Learning (FL) для оптимизации моделей с применением закрытых, задатковых данных. Это позволяет улучшить модели, не теряя приватность пользователей. Однако, несмотря на эффективность FL, существуют проблемы, связанные с нормативным соответствием (например, GDPR), который требует удаления конкретных данных по запросу. Избавление от такой информации в системах FL является сложной задачей из-за распределенной структуры, жестких требований к приватности и хаотичности взаимодействия клиентов. Из этого порождается необходимость в разработке специальных методов для регулярного удаления данных в моделях LLMs.
## Метод
Oblivionis предлагает уникальный подход к обучению и удалению в системах FL. Он рассматривает обучение и удаление как два связанных целевые задачи, которые могут быть решены одновременно. Методология включает в себя шесть алгоритмов FL и пять механизмов удаления данных, которые оцениваются в рамках одной архитектуры. Архитектура Oblivionis гармонично объединяет эти процессы, используя техники градиентного оптимизации и адаптивных методов для обеспечения эффективного удаления данных. Выбор алгоритмов и подходов производится с учетом уровня затрат, эффективности и регулируемости.
## Результаты
Набор экспериментов был проведен для оценки эффективности Oblivionis. Использовались различные типы данных, включая тексты и модели с разным уровнем нагрузки. Основным показателем стала степень "забытости" модели после удаления данных и сохранение ее качества. Результаты показали, что Oblivionis превосходит локальное обучение по параметрам быстродействия и удаления данных. Дополнительная сравнительная таблица, в которой представляются результаты разных алгоритмов, демонстрирует преимущества Oblivionis в сравнении с другими подходами.
## Значимость
Oblivionis может применяться в сферах, где важно соблюдение юридических норм, таких как GDPR. Его особенностью является возможность выборочного удаления данных без существенного потери модельной эффективности. Этот подход может использоваться в системах с большим объемом пользовательских данных, таких как социальные сети, здравоохранение и финансовые системы. Важно отметить, что Oblivionis не только повышает уровень доверия к моделям, но и упрощает требования к управлению данными.
## Выводы
Oblivionis представляет собой продвинутый подход к обучению и удалению данных в федеративных LLM-системах. Он успешно решает про
Abstract
Large Language Models (LLMs) increasingly leverage Federated Learning (FL) to
utilize private, task-specific datasets for fine-tuning while preserving data
privacy. However, while federated LLM frameworks effectively enable
collaborative training without raw data sharing, they critically lack built-in
mechanisms for regulatory compliance like GDPR's right to be forgotten.
Integrating private data heightens concerns over data quality and long-term
governance, yet existing distributed training frameworks offer no principled
way to selectively remove specific client contributions post-training. Due to
distributed data silos, stringent privacy constraints, and the intricacies of
interdependent model aggregation, federated LLM unlearning is significantly
more complex than centralized LLM unlearning. To address this gap, we introduce
Oblivionis, a lightweight learning and unlearning framework that enables
clients to selectively remove specific private data during federated LLM
training, enhancing trustworthiness and regulatory compliance. By unifying FL
and unlearning as a dual optimization objective, we incorporate 6 FL and 5
unlearning algorithms for comprehensive evaluation and comparative analysis,
establishing a robust pipeline for federated LLM unlearning. Extensive
experiments demonstrate that Oblivionis outperforms local training, achieving a
robust balance between forgetting efficacy and model utility, with
cross-algorithm comparisons providing clear directions for future LLM
development.
Ссылки и действия
Дополнительные ресурсы: