📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Unlearning at Scale: Implementing the Right to be Forgotten in Large Language Models

2025-08-19

Авторы:

Abdullah X

## Контекст Статья основывается на рассмотрении права на забыть (обязательств по GDPR Арт. 17) в отношении больших моделей языка. У самого права на забыть существует сложная многоугольниковая структура, которая включает в себя юридические, этические, технические и логические аспекты. Для реализации этого права в системах машинного обучения, особенно в больших моделях языка, требуется новая архитектура, которая позволит удалять данные, соответствующие запросу, без повреждения системы или ухудшения ее производительности. Данная статья поставляет подробное рассмотрение технических проблем и предлагает новые решения для обеспечения эффективного и жесткого "учтения" информации в моделях языка. ## Метод Техническая методология включает в себя определение логической архитектуры для учтения информации в больших моделях языка. Система работает на основе загрузки и репликации тренировочных процессов, которые позволяют удалять выбранные данные без влияния на остальные части модели. Для этого используется детерминированная структура обучения, включающая запись минимальных записей для каждого микро-батча (семантические идентификаторы, RNG-седы, значения обучения и шаг алгоритма оптимизации). Метод предлагает два типа решений: (i) полный откат новых шагов с помощью микро-чекпоинтов или периодических инкрементных записей, (ii) удаление адаптеров в контексте когорт, если основная модель заморожена. Эти технологии включают специальные механизмы, такие как курватура-направленный анти-обновление, чтобы обеспечить точность и эффективность. ## Результаты Использовались упрощенные тестовые данные для проверки функциональности нового метода. Экспериментальные результаты показали, что модель может удалять выбранные данные без сколов в производительности или других параметрах системы. Бит-идентичность параметров модели и оптимизатора была достигнута в случае, когда методы были применены с предварительными условиями. Дополнительно были отчеты о загрузке и задержке в течение всего процесса обучения. Эти результаты подтверждают, что метод может обеспечить соответствие запросам "удаления" в больших моделях языка без известных побочных эффектов. ## Значимость Важность данной работы заключается в том, что она предоставляет новую модель для обеспечения права на забыть в системах машинного обучения. Она может быть применена в различных областях, включая защиту персональных данных, обеспечение конфиденциальности и юридическое соответствие. Этот подход также может способствовать развитию новых этических стандартов в искусственно

Annotation:

We study the right to be forgotten (GDPR Art. 17) for large language models and frame unlearning as a reproducible systems problem. Our approach treats training as a deterministic program and logs a minimal per-microbatch record (ordered ID hash, RNG seed, learning-rate value, optimizer-step counter, and accumulation boundary). Under a pinned stack and deterministic kernels, replaying the training tail while filtering only the forget closure yields the same parameters as training on the retain s...

ID: 2508.12220v1 cs.LG, cs.AI, cs.CR, I.2.6; I.2.7

arXiv PDF