Sparse-Autoencoder-Guided Internal Representation Unlearning for Large Language Models
2509.15631v1
cs.CL, cs.LG
2025-09-23
Авторы:
Tomoya Yamashita, Akira Ito, Yuuki Yamanaka, Masanori Yamada, Takayuki Miura, Toshiki Shibahara
Резюме на русском
## Контекст
Современные большие языковые модели (LLMs) находят широкое применение в различных областях, но при этом сталкиваются с значительными проблемами с точки зрения конфиденциальности и авторских прав. Одна из основных проблем заключается в том, что LLMs могут сохранять внутренние представления, которые могут быть использованы для восстановления конфиденциальной информации. Это вызывает необходимость в разработке эффективных методов "учтения" (unlearning), которые позволят удалить упоминания конкретных целевых сущностей из модели без существенного ущерба для остальных знаний. Несмотря на наличие многих методов знаний о сущностях, большинство из них стремятся уменьшить вероятность появления ненужных ответов, а не удалить конкретные знания. Это приводит к проблеме "спонтанного возникновения" (model collapse) и неверной подавленности знаний.
## Метод
Мы предлагаем новую методологию "учтения", основанную на использовании запароленного автокодировщика (sparse autoencoder). Целью этой методики является изменение внутренних активаций модели таким образом, чтобы активации целевой сущности стали неотличимыми от активаций неизвестных сущностей. Мы определяем "учтение" как состояние, в котором модель не может отличить данную сущность от неизвестного. Данный подход предлагает прямое воздействие на внутренние представления модели, а не только подавление вывода. Мы строим целевую функцию, целью которой является минимизация различия внутренних активаций целевой сущности от неизвестных, а также максимизация различий от других известных сущностей. Это позволяет достичь желаемого эффекта "учтения" без потери других знаний.
## Результаты
Мы проверили нашу методику на нескольких тестовых наборах данных и показали, что она эффективно удаляет знания о конкретных сущностях из модели без привлечения дополнительных данных или дополнительной обучающей стадии. Мы измерили эффективность наших результатов на показателе удаления знаний и показали, что наш подход позволяет избежать модели collapse, который часто возникает при других методах. Кроме того, мы проанализировали навыки модели в задачах вопроса-ответа и показали, что наш подход эффективно снижает вероятность появления нежелательных ответов без существенной потери невинных знаний.
## Значимость
Наш подход может быть применен в различных областях, где требуется удаление конфиденциальных данных из моделей, например, в сфере здравоохранения, финансов или правосудия. Он обеспечивает более надежное удаление знаний по сравнению с другими методами, а также уменьшает вероятность модели collapse. Благодаря тому, что метод оптимизирует внутренние
Abstract
As large language models (LLMs) are increasingly deployed across various
applications, privacy and copyright concerns have heightened the need for more
effective LLM unlearning techniques. Many existing unlearning methods aim to
suppress undesirable outputs through additional training (e.g., gradient
ascent), which reduces the probability of generating such outputs. While such
suppression-based approaches can control model outputs, they may not eliminate
the underlying knowledge embedded in the model's internal activations; muting a
response is not the same as forgetting it. Moreover, such suppression-based
methods often suffer from model collapse. To address these issues, we propose a
novel unlearning method that directly intervenes in the model's internal
activations. In our formulation, forgetting is defined as a state in which the
activation of a forgotten target is indistinguishable from that of ``unknown''
entities. Our method introduces an unlearning objective that modifies the
activation of the target entity away from those of known entities and toward
those of unknown entities in a sparse autoencoder latent space. By aligning the
target's internal activation with those of unknown entities, we shift the
model's recognition of the target entity from ``known'' to ``unknown'',
achieving genuine forgetting while avoiding over-suppression and model
collapse. Empirically, we show that our method effectively aligns the internal
activations of the forgotten target, a result that the suppression-based
approaches do not reliably achieve. Additionally, our method effectively
reduces the model's recall of target knowledge in question-answering tasks
without significant damage to the non-target knowledge.
Ссылки и действия
Дополнительные ресурсы: