Concept Unlearning in Large Language Models via Self-Constructed Knowledge Triplets

2509.15621v1 cs.CL, cs.LG 2025-09-23
Авторы:

Tomoya Yamashita, Yuuki Yamanaka, Masanori Yamada, Takayuki Miura, Toshiki Shibahara, Tomoharu Iwata

Резюме на русском

## Контекст Машинное неузнавание (Machine Unlearning, MU) в последнее время привлекло внимание как подход для решения проблем с приватностью и авторскими правами в больших языковых моделях (LLM). Традиционные методы MU нацелены на удаление конкретных концептов (например, фраз или предложений) из модели, сохраняя непосредственно связанный знаниями база. Однако они не обладают возможностью удаления более широких концепций, таких как личности или события, которые могут иметь многочисленные аспекты. Данная статья предлагает расширение концепции неузнавания до концептуального уровня, учитывая, что такие концепции могут быть выражены через знания, содержащиеся в модели. Этот подход может способствовать более точному и эффективному удалению ненужных данных. ## Метод Метод проводит неузнавание на уровне концепций (Concept Unlearning, CU), используя графовую модель для представления внутренних знаний модели. Знания представляются в виде значимых троек: субъект-предикат-объект. Для удаления концепции, например личности, необходимо удалить все отношения, связанные с этой личностью. Для этого метод прикладывает триплеты (предложения), которые объясняют необходимость удаления, и применяет построенные сети знаний для удаления всех связей, которые указывают на этот концепт. Этот подход позволяет более точно контролировать процесс удаления и сохранять другие знания, не связанные с целевым концептом. ## Результаты Результаты экспериментов основываются на синтетических и реальных данных. В тестировании на реальных данных показано, что метод может удалять концепции без значительного потери данных из модели, которые не связаны с целевым концептом. На синтетических данных показано, что процесс удаления осуществляется более точно, чем при использовании традиционных методов. Это указывает на то, что предложенный подход может быть эффективнее при удалении не только фрагментов текста, но и концептуальных сущностей, таких как личности или события. ## Значимость Предлагаемый подход может быть применен в различных сценариях, таких как защита персональных данных, контроль авторских прав и удаление нежелательных концепций в тексте. Он предоставляет более точное управление и удаление связанных с конкретными личностями или событиями данных, не требуя информации о конкретных фразах. Это может быть ключевым инструментом для обеспечения более гибкой и эффективной модели неузнавания, способной работать с более широким классом задач. ## Выводы Предложенный подход доказал свою эффективность в удалении концепций на уровне знаний, а не только тек

Abstract

Machine Unlearning (MU) has recently attracted considerable attention as a solution to privacy and copyright issues in large language models (LLMs). Existing MU methods aim to remove specific target sentences from an LLM while minimizing damage to unrelated knowledge. However, these approaches require explicit target sentences and do not support removing broader concepts, such as persons or events. To address this limitation, we introduce Concept Unlearning (CU) as a new requirement for LLM unlearning. We leverage knowledge graphs to represent the LLM's internal knowledge and define CU as removing the forgetting target nodes and associated edges. This graph-based formulation enables a more intuitive unlearning and facilitates the design of more effective methods. We propose a novel method that prompts the LLM to generate knowledge triplets and explanatory sentences about the forgetting target and applies the unlearning process to these representations. Our approach enables more precise and comprehensive concept removal by aligning the unlearning process with the LLM's internal knowledge representations. Experiments on real-world and synthetic datasets demonstrate that our method effectively achieves concept-level unlearning while preserving unrelated knowledge.

Ссылки и действия