Collapse of Irrelevant Representations (CIR) Ensures Robust and Non-Disruptive LLM Unlearning

2509.11816v1 cs.LG, cs.AI, cs.CL 2025-09-17

Авторы:

Filip Sondej, Yushi Yang

Резюме на русском

#### Контекст Существующие методы обучения безопасности и технологии удаления знаний (unlearning) сталкиваются с основной проблемой: не удается отказаться от данных или знаний без серьезного воздействия на общую модель. Это проблема наблюдается в области глубокого обучения, где модели могут случайно сохранять опасные или нежелательные знания, даже после попыток их удаления. Такой сценарий не только создает риск для безопасности, но и порождает вопросы относительно юридической аудитности и ответственности в широком количестве сценариев приложений. Мы рассматриваем эту проблему как задачу выбора и сокращения специфичных представлений модели, не влияя на общую модель. #### Метод Мы предлагаем Collapse of Irrelevant Representations (CIR), метод целевого удаления представлений. Он основывается на анализе взаимосвязей между входными данными и выходными модулями модели. Метод работает следующим образом: 1. **Определение ненужных представлений**: используя техники PCA (главных компонент), мы идентифицируем определенные подпространства в выходных модулях и входных слоях, которые содержат значимые характеристики для удаляемого знания. 2. **Схлопывание подпространств**: представления, которые необходимо удалить, сокращаются, но только в тех подпространствах, где они специфичны, без нарушения общих представлений модели. 3. **Обновление модели**: после выявления ненужных представлений, мы выполняем адаптивное обновление модели, которое удаляет только эти представления, оставляя остальные возможности модели неизменными. Эта методика позволяет применять удаление знаний с высокой точностью, сохраняя общую модель неизменной. #### Результаты Мы проверили CIR на Dataset WMDP с различными типами подсетей (biohazardous и cyberhazardous). Мы сравнили результаты с одним из лучших базисных методов — Circuit Breakers. Результаты показали следующее: - **Улучшение точности удаления**: CIR снизил точность модели на 80 раз больше при удалении biohazardous фактов и на 30 раз больше при удалении cyberhazardous фактов по сравнению с Circuit Breakers. - **Уменьшение влияния на общую модель**: CIR в 30 раз меньше повлиял на общую точность модели, где WikiText loss всего 0.1%. - **Эффективность вычислений**: CIR потребовал менее 3 GPU-секунд на удаление одного факта. Эти результаты показывают, что CIR эффективно удаляет ненужные знания, сохраняя общую функциональность модели. #### Значимость Мы предлагаем CIR как решение для широкого спектра задач, в которых необходимо удалить конкретные знания без влияния на общую модель. Это может быть применено в области безопасного обучения, где модели должны быть удалены без ущерба для безопасности или юридических т

Abstract

Current unlearning techniques and safety training consistently fail to remove dangerous knowledge from language models. We analyze the root causes and propose a highly selective technique which unlearns robustly and without disrupting general performance. We perform PCA on activations and module output gradients to identify subspaces containing common representations, and collapse them before calculating unlearning updates. This way we avoid unlearning general representations, and only target those specific to the unlearned facts. When unlearning WMDP dataset facts from Llama-3.1-8B, we drop post-attack accuracy 80x more than our best baseline (Circuit Breakers) on biohazardous facts and 30x more on cyberhazardous facts. Despite this, we disrupt general performance 30x less (only 0.1% WikiText loss increase), while requiring less than 3 GPU-seconds per fact.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Collapse of Irrelevant Representations (CIR) Ensures Robust and Non-Disruptive LLM Unlearning

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

CARL: Critical Action Focused Reinforcement Learning for Multi-Step Agent

Multi-LLM Collaboration for Medication Recommendation

Network of Theseus (like the ship)

SPARK: Stepwise Process-Aware Rewards for Reference-Free Reinforcement Learning

Mode-Conditioning Unlocks Superior Test-Time Scaling

Навигация