## Контекст
С появлением больших языковых моделей (LLMs), таких как GPT-4 и другие, становится важной проблемой управления их знаниями. Особенно актуален вопрос о том, как можно удалить нежелательные знания из модели, не приводя к потере ее основных способностей. Эта проблема становится критичной в таких областях, как безопасность информации, а также при работе с конфиденциальными данными. Например, если модель "знает" что-то нежелательное или вредное, это может привести к катастрофическим последствиям. Однако существующие методы, такие как "параметрический отбор" или "замена параметров", либо неэффективны, либо не обеспечивают постоянные изменения в модели. Мы предлагаем метод CRISP, который адресует эту проблему, используя спарсные автокодировщики (SAEs) для постоянного удаления ненужных знаний.
## Метод
Метод CRISP (Conceptual Retraining and Interpretable Suppression Protocol) основывается на использовании спарсных автокодировщиков, чтобы определить и подавить специфические значимые функции в модели языка. Мы используем сеть автокодировщика для определения значимых характеристик в каждом слое модели языка. Затем, в каждом слое, мы находим самые важные компоненты, которые связаны с нежелательными знаниями, и подавляем их активацию. Это позволяет выполнить постоянное удаление ненужных знаний без повреждения общих и задачных качеств модели. Ключевой инновацией является то, что CRISP работает не только на одном слое, но и по всему модели, что дает более широкий и точный эффект.
## Результаты
Мы проверяли CRISP на двух LLMs, включая BERT и Roberta, используя бенчмарк WMDP для задач удаления нежелательных знаний. В результате, CRISP оказался более эффективен по сравнению с другими методами, такими как "zero-shot unlearning" и "finetuning with sparse autoencoders". Например, в сценарии удаления ненужного знания о политической предвзятости, мы удалили политическое знание без существенного влияния на возможность модели для других задач. Мы также проводили функциональный анализ, показав, что CRISP отлично отделяет нежелательные концепции от благожелательных, чтобы добиться более точного удаления.
## Значимость
Метод CRISP может быть применен в многих областях, в том числе в безопасности информации, клинической практике, и в медиа-моделях, где необходимо удалить специфические ненужные знания. Одним из ключевых преимуществ является то, что CRISP обеспечивает постоянное и безопасное удаление знаний без негативного влияния на базовые способности модели. Это делает его более надежным по сравнению с другими методами, которые могут быть "переобучены" или "обойдены" злоумышленни