Concept Unlearning in Large Language Models via Self-Constructed Knowledge Triplets
2509.15621v1
cs.CL, cs.LG
2025-09-23
Авторы:
Tomoya Yamashita, Yuuki Yamanaka, Masanori Yamada, Takayuki Miura, Toshiki Shibahara, Tomoharu Iwata
Резюме на русском
## Контекст
Машинное неузнавание (Machine Unlearning, MU) в последнее время привлекло внимание как подход для решения проблем с приватностью и авторскими правами в больших языковых моделях (LLM). Традиционные методы MU нацелены на удаление конкретных концептов (например, фраз или предложений) из модели, сохраняя непосредственно связанный знаниями база. Однако они не обладают возможностью удаления более широких концепций, таких как личности или события, которые могут иметь многочисленные аспекты. Данная статья предлагает расширение концепции неузнавания до концептуального уровня, учитывая, что такие концепции могут быть выражены через знания, содержащиеся в модели. Этот подход может способствовать более точному и эффективному удалению ненужных данных.
## Метод
Метод проводит неузнавание на уровне концепций (Concept Unlearning, CU), используя графовую модель для представления внутренних знаний модели. Знания представляются в виде значимых троек: субъект-предикат-объект. Для удаления концепции, например личности, необходимо удалить все отношения, связанные с этой личностью. Для этого метод прикладывает триплеты (предложения), которые объясняют необходимость удаления, и применяет построенные сети знаний для удаления всех связей, которые указывают на этот концепт. Этот подход позволяет более точно контролировать процесс удаления и сохранять другие знания, не связанные с целевым концептом.
## Результаты
Результаты экспериментов основываются на синтетических и реальных данных. В тестировании на реальных данных показано, что метод может удалять концепции без значительного потери данных из модели, которые не связаны с целевым концептом. На синтетических данных показано, что процесс удаления осуществляется более точно, чем при использовании традиционных методов. Это указывает на то, что предложенный подход может быть эффективнее при удалении не только фрагментов текста, но и концептуальных сущностей, таких как личности или события.
## Значимость
Предлагаемый подход может быть применен в различных сценариях, таких как защита персональных данных, контроль авторских прав и удаление нежелательных концепций в тексте. Он предоставляет более точное управление и удаление связанных с конкретными личностями или событиями данных, не требуя информации о конкретных фразах. Это может быть ключевым инструментом для обеспечения более гибкой и эффективной модели неузнавания, способной работать с более широким классом задач.
## Выводы
Предложенный подход доказал свою эффективность в удалении концепций на уровне знаний, а не только тек
Abstract
Machine Unlearning (MU) has recently attracted considerable attention as a
solution to privacy and copyright issues in large language models (LLMs).
Existing MU methods aim to remove specific target sentences from an LLM while
minimizing damage to unrelated knowledge. However, these approaches require
explicit target sentences and do not support removing broader concepts, such as
persons or events. To address this limitation, we introduce Concept Unlearning
(CU) as a new requirement for LLM unlearning. We leverage knowledge graphs to
represent the LLM's internal knowledge and define CU as removing the forgetting
target nodes and associated edges. This graph-based formulation enables a more
intuitive unlearning and facilitates the design of more effective methods. We
propose a novel method that prompts the LLM to generate knowledge triplets and
explanatory sentences about the forgetting target and applies the unlearning
process to these representations. Our approach enables more precise and
comprehensive concept removal by aligning the unlearning process with the LLM's
internal knowledge representations. Experiments on real-world and synthetic
datasets demonstrate that our method effectively achieves concept-level
unlearning while preserving unrelated knowledge.
Ссылки и действия
Дополнительные ресурсы: