From Evaluation to Defense: Constructing Persistent Edit-Based Fingerprints for Large Language Models

2509.03122v1 cs.CL, cs.AI, cs.LG 2025-09-05
Авторы:

Yue Li, Xin Yi, Dongsheng Shi, Yongyi Cui, Gerard de Melo, Xiaoling Wang, Linlin Wang

Резюме на русском

## Контекст Современные бо LARGE LANGUAGE MODELS (LLMs) являются ценными интеллектуальными свойствами, требующими эффективных методов защиты. Одним из популярных подходов является внедрение специальных отпечатков (fingerprints) в модели с помощью инструкционного тюнинга. Однако этот подход имеет недостатки: он сильно снижает эффективность модели, требует больших вычислительных ресурсов и чувствителен к модификациям модели, что приводит к быстрому удалению отпечатков. Наша мотивация заключается в поиске более эффективного и устойчивого подхода для защиты интеллектуальной собственности LLMs. Мы предлагаем использовать редактирование знаний (knowledge editing) в качестве более гибкого и эффективного способа внедрения отпечатков. ## Метод Мы применяем редактирование знаний для внедрения отпечатков в LLMs впервые. Наш первый вклад — Fingerprint Subspace-aware Fine-Tuning (FSFT), метод, который снижает деградацию отпечатков в ходе тюнинга, ограничивая обновление фингерпринт-субспейса. Мы используем scrambled text (рассортированный текст) в качестве отпечатков для уменьшения риска их перезаписи в процессе тюнинга. Также мы выявляем, что модели с отпечатками сталкиваются с проблемой различения отпечатков от похожих текстов из-за высокой схожести их фич, что делает необходимым развитие более тонких и устойчивых методов внедрения отпечатков. ## Результаты Мы проводим эксперименты для оценки эффективности FSFT по сравнению с традиционным тюнингом. Используемые данные включают различные текстовые коллекции, а результаты показывают, что FSFT обеспечивает до 10% улучшения производительности в сравнении с тюнингом в крайней случае. Мы также проводим анализ того, как отпечатки влияют на модели, и продемонстрировали, что низкая точность различения отпечатков от похожих текстов является основной проблемой. Эти результаты подтверждают необходимость развития мощных, тонких и устойчивых методов внедрения отпечатков. ## Значимость Наш подход имеет широкое применение в области защиты интеллектуальной собственности для LLMs. Он позволяет значительно снизить негативное воздействие на модели, обеспечивая устойчивый отпечаток с меньшим риском перезаписи. Это делает нашу методику более экономичной и эффективной по сравнению с традиционными подходами. Мы также выявляем потенциальные области развития, включая развитие методов, позволяющих более точно различать отпечатки от похожих текстов для увеличения уровня защиты. ## Выводы Мы представили первый подход к внедрению отпечатков в LLMs с помощью редактирования знаний. Наши экспери

Abstract

The intellectual property (IP) protection of Large Language Models (LLMs) is increasingly critical. Injecting specialized fingerprints into LLMs through instruction tuning is a common IP protection technique. However, this may significantly degrade model performance, requires substantial computational resources, and exhibits poor persistence under model modifications. We argue that knowledge editing offers a lightweight alternative that is more suitable for fingerprint injection. Accordingly, we apply knowledge editing to fingerprint injection for the first time and demonstrate its strong capability. Despite using scrambled text as fingerprints to prevent them from being overwritten during fine-tuning, degradation still occurs under large-scale fine-tuning. To address this, we propose Fingerprint Subspace-aware Fine-Tuning (FSFT), which reduces fingerprint degradation by constraining the update of the fingerprint subspace. The performance of FSFT exceeds fine-tuning by 10% even in the worst-case scenario. Additionally, we observe that the fingerprint-injected models struggle to distinguish between fingerprints and similar texts due to the high similarity of their features. This finding underscores the urgent need for more robust and fine-grained fingerprinting injection methods for LLMs.

Ссылки и действия