Collapse of Irrelevant Representations (CIR) Ensures Robust and Non-Disruptive LLM Unlearning
2509.11816v1
cs.LG, cs.AI, cs.CL
2025-09-17
Авторы:
Filip Sondej, Yushi Yang
Резюме на русском
#### Контекст
Существующие методы обучения безопасности и технологии удаления знаний (unlearning) сталкиваются с основной проблемой: не удается отказаться от данных или знаний без серьезного воздействия на общую модель. Это проблема наблюдается в области глубокого обучения, где модели могут случайно сохранять опасные или нежелательные знания, даже после попыток их удаления. Такой сценарий не только создает риск для безопасности, но и порождает вопросы относительно юридической аудитности и ответственности в широком количестве сценариев приложений. Мы рассматриваем эту проблему как задачу выбора и сокращения специфичных представлений модели, не влияя на общую модель.
#### Метод
Мы предлагаем Collapse of Irrelevant Representations (CIR), метод целевого удаления представлений. Он основывается на анализе взаимосвязей между входными данными и выходными модулями модели. Метод работает следующим образом:
1. **Определение ненужных представлений**: используя техники PCA (главных компонент), мы идентифицируем определенные подпространства в выходных модулях и входных слоях, которые содержат значимые характеристики для удаляемого знания.
2. **Схлопывание подпространств**: представления, которые необходимо удалить, сокращаются, но только в тех подпространствах, где они специфичны, без нарушения общих представлений модели.
3. **Обновление модели**: после выявления ненужных представлений, мы выполняем адаптивное обновление модели, которое удаляет только эти представления, оставляя остальные возможности модели неизменными.
Эта методика позволяет применять удаление знаний с высокой точностью, сохраняя общую модель неизменной.
#### Результаты
Мы проверили CIR на Dataset WMDP с различными типами подсетей (biohazardous и cyberhazardous). Мы сравнили результаты с одним из лучших базисных методов — Circuit Breakers. Результаты показали следующее:
- **Улучшение точности удаления**: CIR снизил точность модели на 80 раз больше при удалении biohazardous фактов и на 30 раз больше при удалении cyberhazardous фактов по сравнению с Circuit Breakers.
- **Уменьшение влияния на общую модель**: CIR в 30 раз меньше повлиял на общую точность модели, где WikiText loss всего 0.1%.
- **Эффективность вычислений**: CIR потребовал менее 3 GPU-секунд на удаление одного факта.
Эти результаты показывают, что CIR эффективно удаляет ненужные знания, сохраняя общую функциональность модели.
#### Значимость
Мы предлагаем CIR как решение для широкого спектра задач, в которых необходимо удалить конкретные знания без влияния на общую модель. Это может быть применено в области безопасного обучения, где модели должны быть удалены без ущерба для безопасности или юридических т
Abstract
Current unlearning techniques and safety training consistently fail to remove
dangerous knowledge from language models. We analyze the root causes and
propose a highly selective technique which unlearns robustly and without
disrupting general performance.
We perform PCA on activations and module output gradients to identify
subspaces containing common representations, and collapse them before
calculating unlearning updates. This way we avoid unlearning general
representations, and only target those specific to the unlearned facts.
When unlearning WMDP dataset facts from Llama-3.1-8B, we drop post-attack
accuracy 80x more than our best baseline (Circuit Breakers) on biohazardous
facts and 30x more on cyberhazardous facts. Despite this, we disrupt general
performance 30x less (only 0.1% WikiText loss increase), while requiring less
than 3 GPU-seconds per fact.
Ссылки и действия
Дополнительные ресурсы: