LLM Unlearning Without an Expert Curated Dataset
2508.06595v2
cs.CL, cs.AI, cs.LG
2025-08-13
Авторы:
Xiaoyuan Zhu, Muru Zhang, Ollie Liu, Robin Jia, Willie Neiswanger
Резюме на русском
## Контекст
Современные большие модели языковых моделей (LLM) включают в себя разнообразную информацию, включая секретную, вредоносную или авторские работы, что порождает необходимость в пост-хокских методах удаления конкретных областей знаний из модели без полной переучивания. Одной из основных проблем в этой области является создание эффективных forget-сетей — наборов данных, которые аппроксимируют целевую область знаний и помогают модели "забыть" ее. Традиционно, forget-сети создаются вручную, что требует огромных усилий и ресурсов. В данной работе мы предлагаем автоматизированный подход для создания high-quality forget-сетей с помощью языковых моделей, который позволяет улучшить эффективность и скорость процесса удаления.
## Метод
Мы предлагаем метод, основанный на структурированной просмотриваемости языковых моделей, для генерации forget-сетей. Наш подход предполагает использование лишь доменного имени, чтобы сгенерировать книгоподобные данные. Мы вводим многошаговую генерацию, включающую в себя шаги, такие как генерация текстов, форматирование и настройка. Этот подход гарантирует высокую разнообразие генерируемых данных, что позволяет повысить качество и эффективность удаления. Метод автоматизируется и может быть использован для множества различных областей знаний.
## Результаты
Мы проводили эксперименты на трех областях знаний: биобезопасности, цифровой безопасности и фантастических рассказов Harry Potter. Мы сравнили наш подход с традиционными forget-сетями, созданными вручную. Наши результаты показали, что генерируемые данные показывают высокую эффективность и схожесть с экспертно-созданными данными, при этом ими могут управлять даже не специалисты. Факторы, такие как разнообразие данных и многошаговая генерация, оказались ключевыми для достижения такого уровня качества.
## Значимость
Наш подход может быть применен в различных областях, где необходимо удалить конкретные знания из модели без повторного обучения. Мы показали, что наш метод может работать как с цифровой безопасностью, так и с биобезопасностью, и даже с рассказами. Этот подход предлагает стоимость, эффективность и масштабируемость, чем открывает широкие возможности для практического применения в широком круге областей.
## Выводы
Мы доказали, что наш подход предлагает простоту и эффективность для создания forget-сетей, созданных автоматически. Мы показали, что наш метод не только позволяет удалять знания из моделей, но и может быть применен в различных сферах, что делает его отличным инструментом для управления знаниями в технологиях бо
Abstract
Modern large language models often encode sensitive, harmful, or copyrighted
knowledge, raising the need for post-hoc unlearning-the ability to remove
specific domains of knowledge from a model without full retraining. A major
bottleneck in current unlearning pipelines is constructing effective forget
sets-datasets that approximate the target domain and guide the model to forget
it. In this work, we introduce a scalable, automated approach to generate
high-quality forget sets using language models themselves. Our method
synthesizes textbook-style data through a structured prompting pipeline,
requiring only a domain name as input. Through experiments on unlearning
biosecurity, cybersecurity, and Harry Potter novels, we show that our synthetic
datasets consistently outperform the baseline synthetic alternatives and are
comparable to the expert-curated ones. Additionally, ablation studies reveal
that the multi-step generation pipeline significantly boosts data diversity,
which in turn improves unlearning utility. Overall, our findings suggest that
synthetic datasets offer a promising path toward practical, scalable unlearning
for a wide range of emerging domains without the need for manual intervention.
We release our code and dataset at
https://github.com/xyzhu123/Synthetic_Textbook.
Ссылки и действия
Дополнительные ресурсы: