Reliable Unlearning Harmful Information in LLMs with Metamorphosis Representation Projection
2508.15449v1
cs.LG, cs.AI, 68T07, I.2.6
2025-08-23
Авторы:
Chengcan Wu, Zeming Wei, Huanran Chen, Yinpeng Dong, Meng Sun
Резюме на русском
## Контекст
Large Language Models (LLMs) оказались неоценимым инструментом в различных областях, но несут в себе значительные риски для безопасности. Эти модели могут содержать в себе небезопасные знания, которые могут быть использованы для вредоносных целей. Например, модели могут хранить информацию, которая нарушает права людей, включает в себя угрозы безопасности или содержит материалы, мешающие нормальному функционированию систем.
Чтобы устранить эти риски, возникла необходимость в методах машинного "учтения" (unlearning), которые позволяют удалять нежелательную информацию из моделей без ущерба для их основного функционирования. Несмотря на существующие методы, такие как позитивное и отрицательное оптимизационное воздействие, эти подходы не могут полностью удалить нежелательные сведения, оставаясь в системе в виде ненужных трасс. Это ограничение приводит к возможности реквалификации модели под влиянием внешних угроз, что делает вопрос безопасности очень актуальным.
## Метод
Мы предлагаем метод **Metamorphosis Representation Projection (MRP)**, который использует необратимые преобразования в пространстве скрытых слоев нейронных сетей, чтобы выполнять эффективное учтение. Наш подход основывается на проекции и свойствах необратимости, которые позволяют удалять нежелательные сведения, не влияя на другие части модели.
Метод работает в следующем порядке:
1. **Определение целевых слоёв модели** — мы выбираем слои, которые в непосредственном виде хранят нежелательную информацию.
2. **Проекция нежелательной информации** — мы применяем необратимые преобразования, которые удаляют нежелательные сведения без повреждения других частей модели.
3. **Настройка параметров** — мы оптимизируем проекцию и увеличиваем её эффективность в работе.
MRP использует подходы, которые не только удаляют нежелательные сведения, но и позволяют модели продолжать работать устойчиво и эффективно.
## Результаты
Мы проводили ряд экспериментов, чтобы проверить эффективность нашего подхода. Использовав множество реальных данных, мы применяли MRP для удаления нежелательных знаний из моделей. Наши результаты показали, что MRP позволяет эффективно удалять нежелательные сведения, не влияя на производительность модели. Мы успешно обосновали, что наш подход действительно эффективен в сравнении с другими методами, такими как градиентные методы, и позволяет удалять нежелательные знания без повторного возникновения.
## Значимость
Наш подход имеет широкие диапазоны применения в различных областях безопасности информации, включая банковские сист
Abstract
While Large Language Models (LLMs) have demonstrated impressive performance
in various domains and tasks, concerns about their safety are becoming
increasingly severe. In particular, since models may store unsafe knowledge
internally, machine unlearning has emerged as a representative paradigm to
ensure model safety. Existing approaches employ various training techniques,
such as gradient ascent and negative preference optimization, in attempts to
eliminate the influence of undesired data on target models. However, these
methods merely suppress the activation of undesired data through parametric
training without completely eradicating its informational traces within the
model. This fundamental limitation makes it difficult to achieve effective
continuous unlearning, rendering these methods vulnerable to relearning
attacks. To overcome these challenges, we propose a Metamorphosis
Representation Projection (MRP) approach that pioneers the application of
irreversible projection properties to machine unlearning. By implementing
projective transformations in the hidden state space of specific network
layers, our method effectively eliminates harmful information while preserving
useful knowledge. Experimental results demonstrate that our approach enables
effective continuous unlearning and successfully defends against relearning
attacks, achieving state-of-the-art performance in unlearning effectiveness
while preserving natural performance. Our code is available in
https://github.com/ChengcanWu/MRP.