Reveal and Release: Iterative LLM Unlearning with Self-generated Data

2509.14624v1 cs.CL, cs.AI, cs.LG 2025-09-20

Авторы:

Linxi Xie, Xin Teng, Shichang Ke, Hongyi Wen, Shengjie Wang

Резюме на русском

#### Контекст В последние годы появилось много методов удаления влияния нежелательных данных (также называемых данными для забывания) из больших языковых моделей (LLM). Эти методы используются для обеспечения конфиденциальности данных, соблюдения законов об авторском праве и улучшения моделей. Однако существуют две ключевые проблемы. Во-первых, данные для забывания часто являются конфиденциальными, редкими или подчиненными закону, что делает их дорогими и сложными в получении. Во-вторых, данные для забывания могут не соответствовать их представлению внутри модели, что создает проблемы для эффективного удаления. Эти проблемы подчеркивают необходимость развития более продвинутых методов удаления. #### Метод Мы предлагаем метод "Reveal-and-Release", который использует самостоятельно сгенерированные данные для удаления влияния нежелательных данных. Этот метод работает в два этапа: "Reveal" и "Release". В первом этапе мы используем оптимизированные инструкции для того, чтобы модель "раскрыла" всю информацию, которую она знает о нежелательных данных. Во втором этапе мы создаем и используем итеративный фреймворк для удаления, в котором вносятся малые изменения в веса модели с помощью параметр-эффективных модулей, обученных на самостоятельно сгенерированных данных. Этот подход позволяет использовать самостоятельно сгенерированные данные эффективнее, при этом сохраняя качество и удобство использования модели. #### Результаты Мы провели эксперименты для оценки качества и эффективности нашего подхода. Данные для этих экспериментов были получены из различных источников, включая текстовые базы, имитирующие реальные сценарии использования. Мы сравнили нашу методику с несколькими существующими методами удаления. Результаты показали, что наш подход дает лучший баланс между удалением нежелательной информации и сохранением качества работы модели. Мы также провели анализ того, как различные параметры влияют на результат, что дает нам гибкость в настройке метода для различных сценариев. #### Значимость Метод "Reveal-and-Release" может применяться в различных областях, где необходимо удаление конфиденциальных данных, таких как защита личных данных, соблюдение законов об авторском праве, и улучшение моделей. Он предоставляет несколько преимуществ по сравнению с существующими методами, включая эффективность, точность и гибкость. Этот подход может быть использован в приложениях, где требуется максимальная конфиденциальность данных или где данные для забывания сложно получить. Мы также увидели, что наш метод может быть применен в различных типах моделей LLM, что делает его широко применимым. #### Выводы О

Abstract

Large language model (LLM) unlearning has demonstrated effectiveness in removing the influence of undesirable data (also known as forget data). Existing approaches typically assume full access to the forget dataset, overlooking two key challenges: (1) Forget data is often privacy-sensitive, rare, or legally regulated, making it expensive or impractical to obtain (2) The distribution of available forget data may not align with how that information is represented within the model. To address these limitations, we propose a ``Reveal-and-Release'' method to unlearn with self-generated data, where we prompt the model to reveal what it knows using optimized instructions. To fully utilize the self-generated forget data, we propose an iterative unlearning framework, where we make incremental adjustments to the model's weight space with parameter-efficient modules trained on the forget data. Experimental results demonstrate that our method balances the tradeoff between forget quality and utility preservation.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Reveal and Release: Iterative LLM Unlearning with Self-generated Data

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Arbitrage: Efficient Reasoning via Advantage-Aware Speculation

Structured Document Translation via Format Reinforcement Learning

Principled RL for Diffusion LLMs Emerges from a Sequence-Level Perspective

Agreement-Constrained Probabilistic Minimum Bayes Risk Decoding

SUPERChem: A Multimodal Reasoning Benchmark in Chemistry

Навигация