Reliable Unlearning Harmful Information in LLMs with Metamorphosis Representation Projection

2508.15449v1 cs.LG, cs.AI, 68T07, I.2.6 2025-08-23
Авторы:

Chengcan Wu, Zeming Wei, Huanran Chen, Yinpeng Dong, Meng Sun

Резюме на русском

## Контекст Large Language Models (LLMs) оказались неоценимым инструментом в различных областях, но несут в себе значительные риски для безопасности. Эти модели могут содержать в себе небезопасные знания, которые могут быть использованы для вредоносных целей. Например, модели могут хранить информацию, которая нарушает права людей, включает в себя угрозы безопасности или содержит материалы, мешающие нормальному функционированию систем. Чтобы устранить эти риски, возникла необходимость в методах машинного "учтения" (unlearning), которые позволяют удалять нежелательную информацию из моделей без ущерба для их основного функционирования. Несмотря на существующие методы, такие как позитивное и отрицательное оптимизационное воздействие, эти подходы не могут полностью удалить нежелательные сведения, оставаясь в системе в виде ненужных трасс. Это ограничение приводит к возможности реквалификации модели под влиянием внешних угроз, что делает вопрос безопасности очень актуальным. ## Метод Мы предлагаем метод **Metamorphosis Representation Projection (MRP)**, который использует необратимые преобразования в пространстве скрытых слоев нейронных сетей, чтобы выполнять эффективное учтение. Наш подход основывается на проекции и свойствах необратимости, которые позволяют удалять нежелательные сведения, не влияя на другие части модели. Метод работает в следующем порядке: 1. **Определение целевых слоёв модели** — мы выбираем слои, которые в непосредственном виде хранят нежелательную информацию. 2. **Проекция нежелательной информации** — мы применяем необратимые преобразования, которые удаляют нежелательные сведения без повреждения других частей модели. 3. **Настройка параметров** — мы оптимизируем проекцию и увеличиваем её эффективность в работе. MRP использует подходы, которые не только удаляют нежелательные сведения, но и позволяют модели продолжать работать устойчиво и эффективно. ## Результаты Мы проводили ряд экспериментов, чтобы проверить эффективность нашего подхода. Использовав множество реальных данных, мы применяли MRP для удаления нежелательных знаний из моделей. Наши результаты показали, что MRP позволяет эффективно удалять нежелательные сведения, не влияя на производительность модели. Мы успешно обосновали, что наш подход действительно эффективен в сравнении с другими методами, такими как градиентные методы, и позволяет удалять нежелательные знания без повторного возникновения. ## Значимость Наш подход имеет широкие диапазоны применения в различных областях безопасности информации, включая банковские сист

Abstract

While Large Language Models (LLMs) have demonstrated impressive performance in various domains and tasks, concerns about their safety are becoming increasingly severe. In particular, since models may store unsafe knowledge internally, machine unlearning has emerged as a representative paradigm to ensure model safety. Existing approaches employ various training techniques, such as gradient ascent and negative preference optimization, in attempts to eliminate the influence of undesired data on target models. However, these methods merely suppress the activation of undesired data through parametric training without completely eradicating its informational traces within the model. This fundamental limitation makes it difficult to achieve effective continuous unlearning, rendering these methods vulnerable to relearning attacks. To overcome these challenges, we propose a Metamorphosis Representation Projection (MRP) approach that pioneers the application of irreversible projection properties to machine unlearning. By implementing projective transformations in the hidden state space of specific network layers, our method effectively eliminates harmful information while preserving useful knowledge. Experimental results demonstrate that our approach enables effective continuous unlearning and successfully defends against relearning attacks, achieving state-of-the-art performance in unlearning effectiveness while preserving natural performance. Our code is available in https://github.com/ChengcanWu/MRP.

Ссылки и действия