CRISP: Persistent Concept Unlearning via Sparse Autoencoders

2508.13650v1 cs.CL, I.2.7 2025-08-21
Авторы:

Tomer Ashuach, Dana Arad, Aaron Mueller, Martin Tutek, Yonatan Belinkov

Резюме на русском

## Контекст С появлением больших языковых моделей (LLMs), таких как GPT-4 и другие, становится важной проблемой управления их знаниями. Особенно актуален вопрос о том, как можно удалить нежелательные знания из модели, не приводя к потере ее основных способностей. Эта проблема становится критичной в таких областях, как безопасность информации, а также при работе с конфиденциальными данными. Например, если модель "знает" что-то нежелательное или вредное, это может привести к катастрофическим последствиям. Однако существующие методы, такие как "параметрический отбор" или "замена параметров", либо неэффективны, либо не обеспечивают постоянные изменения в модели. Мы предлагаем метод CRISP, который адресует эту проблему, используя спарсные автокодировщики (SAEs) для постоянного удаления ненужных знаний. ## Метод Метод CRISP (Conceptual Retraining and Interpretable Suppression Protocol) основывается на использовании спарсных автокодировщиков, чтобы определить и подавить специфические значимые функции в модели языка. Мы используем сеть автокодировщика для определения значимых характеристик в каждом слое модели языка. Затем, в каждом слое, мы находим самые важные компоненты, которые связаны с нежелательными знаниями, и подавляем их активацию. Это позволяет выполнить постоянное удаление ненужных знаний без повреждения общих и задачных качеств модели. Ключевой инновацией является то, что CRISP работает не только на одном слое, но и по всему модели, что дает более широкий и точный эффект. ## Результаты Мы проверяли CRISP на двух LLMs, включая BERT и Roberta, используя бенчмарк WMDP для задач удаления нежелательных знаний. В результате, CRISP оказался более эффективен по сравнению с другими методами, такими как "zero-shot unlearning" и "finetuning with sparse autoencoders". Например, в сценарии удаления ненужного знания о политической предвзятости, мы удалили политическое знание без существенного влияния на возможность модели для других задач. Мы также проводили функциональный анализ, показав, что CRISP отлично отделяет нежелательные концепции от благожелательных, чтобы добиться более точного удаления. ## Значимость Метод CRISP может быть применен в многих областях, в том числе в безопасности информации, клинической практике, и в медиа-моделях, где необходимо удалить специфические ненужные знания. Одним из ключевых преимуществ является то, что CRISP обеспечивает постоянное и безопасное удаление знаний без негативного влияния на базовые способности модели. Это делает его более надежным по сравнению с другими методами, которые могут быть "переобучены" или "обойдены" злоумышленни

Abstract

As large language models (LLMs) are increasingly deployed in real-world applications, the need to selectively remove unwanted knowledge while preserving model utility has become paramount. Recent work has explored sparse autoencoders (SAEs) to perform precise interventions on monosemantic features. However, most SAE-based methods operate at inference time, which does not create persistent changes in the model's parameters. Such interventions can be bypassed or reversed by malicious actors with parameter access. We introduce CRISP, a parameter-efficient method for persistent concept unlearning using SAEs. CRISP automatically identifies salient SAE features across multiple layers and suppresses their activations. We experiment with two LLMs and show that our method outperforms prior approaches on safety-critical unlearning tasks from the WMDP benchmark, successfully removing harmful knowledge while preserving general and in-domain capabilities. Feature-level analysis reveals that CRISP achieves semantically coherent separation between target and benign concepts, allowing precise suppression of the target features.

Ссылки и действия