Sparse-Autoencoder-Guided Internal Representation Unlearning for Large Language Models

2509.15631v1 cs.CL, cs.LG 2025-09-23
Авторы:

Tomoya Yamashita, Akira Ito, Yuuki Yamanaka, Masanori Yamada, Takayuki Miura, Toshiki Shibahara

Резюме на русском

## Контекст Современные большие языковые модели (LLMs) находят широкое применение в различных областях, но при этом сталкиваются с значительными проблемами с точки зрения конфиденциальности и авторских прав. Одна из основных проблем заключается в том, что LLMs могут сохранять внутренние представления, которые могут быть использованы для восстановления конфиденциальной информации. Это вызывает необходимость в разработке эффективных методов "учтения" (unlearning), которые позволят удалить упоминания конкретных целевых сущностей из модели без существенного ущерба для остальных знаний. Несмотря на наличие многих методов знаний о сущностях, большинство из них стремятся уменьшить вероятность появления ненужных ответов, а не удалить конкретные знания. Это приводит к проблеме "спонтанного возникновения" (model collapse) и неверной подавленности знаний. ## Метод Мы предлагаем новую методологию "учтения", основанную на использовании запароленного автокодировщика (sparse autoencoder). Целью этой методики является изменение внутренних активаций модели таким образом, чтобы активации целевой сущности стали неотличимыми от активаций неизвестных сущностей. Мы определяем "учтение" как состояние, в котором модель не может отличить данную сущность от неизвестного. Данный подход предлагает прямое воздействие на внутренние представления модели, а не только подавление вывода. Мы строим целевую функцию, целью которой является минимизация различия внутренних активаций целевой сущности от неизвестных, а также максимизация различий от других известных сущностей. Это позволяет достичь желаемого эффекта "учтения" без потери других знаний. ## Результаты Мы проверили нашу методику на нескольких тестовых наборах данных и показали, что она эффективно удаляет знания о конкретных сущностях из модели без привлечения дополнительных данных или дополнительной обучающей стадии. Мы измерили эффективность наших результатов на показателе удаления знаний и показали, что наш подход позволяет избежать модели collapse, который часто возникает при других методах. Кроме того, мы проанализировали навыки модели в задачах вопроса-ответа и показали, что наш подход эффективно снижает вероятность появления нежелательных ответов без существенной потери невинных знаний. ## Значимость Наш подход может быть применен в различных областях, где требуется удаление конфиденциальных данных из моделей, например, в сфере здравоохранения, финансов или правосудия. Он обеспечивает более надежное удаление знаний по сравнению с другими методами, а также уменьшает вероятность модели collapse. Благодаря тому, что метод оптимизирует внутренние

Abstract

As large language models (LLMs) are increasingly deployed across various applications, privacy and copyright concerns have heightened the need for more effective LLM unlearning techniques. Many existing unlearning methods aim to suppress undesirable outputs through additional training (e.g., gradient ascent), which reduces the probability of generating such outputs. While such suppression-based approaches can control model outputs, they may not eliminate the underlying knowledge embedded in the model's internal activations; muting a response is not the same as forgetting it. Moreover, such suppression-based methods often suffer from model collapse. To address these issues, we propose a novel unlearning method that directly intervenes in the model's internal activations. In our formulation, forgetting is defined as a state in which the activation of a forgotten target is indistinguishable from that of ``unknown'' entities. Our method introduces an unlearning objective that modifies the activation of the target entity away from those of known entities and toward those of unknown entities in a sparse autoencoder latent space. By aligning the target's internal activation with those of unknown entities, we shift the model's recognition of the target entity from ``known'' to ``unknown'', achieving genuine forgetting while avoiding over-suppression and model collapse. Empirically, we show that our method effectively aligns the internal activations of the forgotten target, a result that the suppression-based approaches do not reliably achieve. Additionally, our method effectively reduces the model's recall of target knowledge in question-answering tasks without significant damage to the non-target knowledge.

Ссылки и действия