CLUE: Conflict-guided Localization for LLM Unlearning Framework
2509.20977v1
cs.LG, cs.CL
2025-09-27
Авторы:
Hang Chen, Jiaying Zhu, Xinyu Yang, Wenya Wang
Резюме на русском
## Контекст
Существуют сложные системы на базе штурмовых линейных моделей (LLM), которые широко применяются в различных областях, от поисковых систем до распознавания речи. Однако возникают ситуации, когда необходимо удалить влияние определенных данных из модели без повреждения других, связанных с ними, связей. Этот процесс, известный как LLM unlearning, является важным для соблюдения законов конфиденциальности, устранения нежелательных способностей и обеспечения безопасности моделей.
Проблема заключается в том, что существующие методы локализации во многом ненадежны и применяют универсальные подходы к локализации и интервенции в нейронов. Это приводит к проблемам как не полного удаления ненужных данных (over-forgetting), так и невозможности сохранить необходимые способности (incomplete retention).
Мотивация заключается в развитии более точного и эффективного подхода к локализации нейронов для LLM unlearning, чтобы решить эти проблемы и повысить эффективность работы моделей.
## Метод
Разработанный CLUE-фреймворк (Conflict-guided Localization for LLM Unlearning Framework) основывается на механистической интерпретируемости и использует методы открытого поля (circuit discovery). Ключевой идеей является разделение нейронов модели на две категории: "забывающие" (forget) и "сохраняющие" (retain), которые отвечают за удаление нежелательных данных и сохранение ценных способностей.
CLUE работает в два этапа:
1. Определяет "forget" и "retain" как нейроны, составляющие конфликтующие цели, и использует методы логического вывода, чтобы распределить каждый нейрон в одну из этих категорий.
2. Конвертирует эти категории в союзную нормальную форму (CNF), где каждый нейрон определен как индивидуальный фактор, который либо должен быть забыт, либо сохранен.
Далее, для каждой категории разрабатываются целевые стратегии тюнинга, чтобы максимально точно влиять на нейроны без влияния на другие.
## Результаты
Используемые данные включали широкий спектр задач, включая текстовые задачи, распознавание речи и другие задачи, требующие большого количества данных. На этапе экспериментов показано, что CLUE демонстрирует значительно вышу уровень точности в локализации нейронов, отвечающих за забывание и сохранение.
Ключевые результаты:
- Более точная локализация нейронов, что приводит к более эффективному удалению нежелательных данных.
- Улучшенная способность сохранить необходимые способности модели.
- Значительно повышенная стабильность модели после процесса удаления.
## Значимость
CLUE может быть применен в различных сферах, где необходимо удалить нежелательные данные из моделей без повреждения других связе
Abstract
The LLM unlearning aims to eliminate the influence of undesirable data
without affecting causally unrelated information. This process typically
involves using a forget set to remove target information, alongside a retain
set to maintain non-target capabilities. While recent localization-based
methods demonstrate promise in identifying important neurons to be unlearned,
they fail to disentangle neurons responsible for forgetting undesirable
knowledge or retaining essential skills, often treating them as a single
entangled group. As a result, these methods apply uniform interventions,
risking catastrophic over-forgetting or incomplete erasure of the target
knowledge. To address this, we turn to circuit discovery, a mechanistic
interpretability technique, and propose the Conflict-guided Localization for
LLM Unlearning framEwork (CLUE). This framework identifies the forget and
retain circuit composed of important neurons, and then the circuits are
transformed into conjunctive normal forms (CNF). The assignment of each neuron
in the CNF satisfiability solution reveals whether it should be forgotten or
retained. We then provide targeted fine-tuning strategies for different
categories of neurons. Extensive experiments demonstrate that, compared to
existing localization methods, CLUE achieves superior forget efficacy and
retain utility through precise neural localization.
Ссылки и действия
Дополнительные ресурсы: