CLUE: Conflict-guided Localization for LLM Unlearning Framework

2509.20977v1 cs.LG, cs.CL 2025-09-27

Авторы:

Hang Chen, Jiaying Zhu, Xinyu Yang, Wenya Wang

Резюме на русском

## Контекст Существуют сложные системы на базе штурмовых линейных моделей (LLM), которые широко применяются в различных областях, от поисковых систем до распознавания речи. Однако возникают ситуации, когда необходимо удалить влияние определенных данных из модели без повреждения других, связанных с ними, связей. Этот процесс, известный как LLM unlearning, является важным для соблюдения законов конфиденциальности, устранения нежелательных способностей и обеспечения безопасности моделей. Проблема заключается в том, что существующие методы локализации во многом ненадежны и применяют универсальные подходы к локализации и интервенции в нейронов. Это приводит к проблемам как не полного удаления ненужных данных (over-forgetting), так и невозможности сохранить необходимые способности (incomplete retention). Мотивация заключается в развитии более точного и эффективного подхода к локализации нейронов для LLM unlearning, чтобы решить эти проблемы и повысить эффективность работы моделей. ## Метод Разработанный CLUE-фреймворк (Conflict-guided Localization for LLM Unlearning Framework) основывается на механистической интерпретируемости и использует методы открытого поля (circuit discovery). Ключевой идеей является разделение нейронов модели на две категории: "забывающие" (forget) и "сохраняющие" (retain), которые отвечают за удаление нежелательных данных и сохранение ценных способностей. CLUE работает в два этапа: 1. Определяет "forget" и "retain" как нейроны, составляющие конфликтующие цели, и использует методы логического вывода, чтобы распределить каждый нейрон в одну из этих категорий. 2. Конвертирует эти категории в союзную нормальную форму (CNF), где каждый нейрон определен как индивидуальный фактор, который либо должен быть забыт, либо сохранен. Далее, для каждой категории разрабатываются целевые стратегии тюнинга, чтобы максимально точно влиять на нейроны без влияния на другие. ## Результаты Используемые данные включали широкий спектр задач, включая текстовые задачи, распознавание речи и другие задачи, требующие большого количества данных. На этапе экспериментов показано, что CLUE демонстрирует значительно вышу уровень точности в локализации нейронов, отвечающих за забывание и сохранение. Ключевые результаты: - Более точная локализация нейронов, что приводит к более эффективному удалению нежелательных данных. - Улучшенная способность сохранить необходимые способности модели. - Значительно повышенная стабильность модели после процесса удаления. ## Значимость CLUE может быть применен в различных сферах, где необходимо удалить нежелательные данные из моделей без повреждения других связе

Abstract

The LLM unlearning aims to eliminate the influence of undesirable data without affecting causally unrelated information. This process typically involves using a forget set to remove target information, alongside a retain set to maintain non-target capabilities. While recent localization-based methods demonstrate promise in identifying important neurons to be unlearned, they fail to disentangle neurons responsible for forgetting undesirable knowledge or retaining essential skills, often treating them as a single entangled group. As a result, these methods apply uniform interventions, risking catastrophic over-forgetting or incomplete erasure of the target knowledge. To address this, we turn to circuit discovery, a mechanistic interpretability technique, and propose the Conflict-guided Localization for LLM Unlearning framEwork (CLUE). This framework identifies the forget and retain circuit composed of important neurons, and then the circuits are transformed into conjunctive normal forms (CNF). The assignment of each neuron in the CNF satisfiability solution reveals whether it should be forgotten or retained. We then provide targeted fine-tuning strategies for different categories of neurons. Extensive experiments demonstrate that, compared to existing localization methods, CLUE achieves superior forget efficacy and retain utility through precise neural localization.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

CLUE: Conflict-guided Localization for LLM Unlearning Framework

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Natural Language Actor-Critic: Scalable Off-Policy Learning in Language Space

Towards Active Synthetic Data Generation for Finetuning Language Models

AlignSAE: Concept-Aligned Sparse Autoencoders

Measuring What LLMs Think They Do: SHAP Faithfulness and Deployability on Financ...

BanglaSentNet: An Explainable Hybrid Deep Learning Framework for Multi-Aspect Se...

Навигация