Yet Another Watermark for Large Language Models

2509.12574v2 cs.CR, cs.CL 2025-09-18
Авторы:

Siyuan Bao, Ying Shi, Zhiguang Yang, Hanzhou Wu, Xinpeng Zhang

Резюме на русском

## Контекст Одним из актуальных вопросов в развитии бо LARGE LANGUAGE MODELS (LLMs) является обеспечение подлинности и владения этими моделями. Несмотря на их высокую точность и гибкость, LLMs часто используются без контроля происхождения или владения, что может привести к несанкционированному использованию. Этот феномен порождает необходимость в разработке эффективных методов водяных знаков (watermarking), которые могут помочь установить владение и следить за операцией этих моделей. Несмотря на существующие решения, они имеют ряд ограждений: либо они неэффективны для больших моделей из-за массивного количества параметров, либо требуют доступа к внутренним компонентам модели, что нежелательно в боевой ситуации. ## Метод Мы предлагаем новую модель watermarking, которая интегрирует внутренние параметры LLMs. Метод заключается в том, чтобы изменять внутреннюю структуру модели, чтобы внедрить водяной знак, который можно извлечь без доступа к модели. Это достигается путем обобщения внутренних параметров модели во время обучения, что делает водяной знак незаметным для пользователя, но при этом достаточно определенным для его выявления при необходимости. Наш подход позволяет сохранить высокую точность генерации текста, не ухудшая качество, и значительно уменьшает время обработки в сравнении с другими методами. ## Результаты Мы проверили нашу модель на нескольких тестовых выборках и сравнили её с другими популярными методами watermarking. Эксперименты показали, что наш подход выдаёт более сбалансированные результаты в терминах обнаруживаемости водяного знака и качества текста. Он позволяет извлекать водяный знак даже в условиях black-box, где у пользователя нет доступа к модели. Было доказано, что наш метод обеспечивает лучшую точность и быстроту восстановления водяного знака, чем существующие решения. ## Значимость Наш метод может применяться в различных областях, где требуется выявлять владение функциональными моделями, таких как юридические исследования, безопасность информации и авторские права. Он обеспечивает улучшенную точность и быстроту восстановления, что делает его предпочтительным в сценариях, где время и точность критичны. Более того, наш подход может иметь значительное влияние на развитие безопасного использования LLMs, позволяя лучше контролировать их использование. ## Выводы Мы представили новую модель watermarking для LLMs, которая интегрирует внутренние параметры модели для внедрения водяного знака. Наш подход позволяет достичь высокой точности, незаметности и эффективности, даже при большом количестве параметров модели. Мы рассмо

Abstract

Existing watermarking methods for large language models (LLMs) mainly embed watermark by adjusting the token sampling prediction or post-processing, lacking intrinsic coupling with LLMs, which may significantly reduce the semantic quality of the generated marked texts. Traditional watermarking methods based on training or fine-tuning may be extendable to LLMs. However, most of them are limited to the white-box scenario, or very time-consuming due to the massive parameters of LLMs. In this paper, we present a new watermarking framework for LLMs, where the watermark is embedded into the LLM by manipulating the internal parameters of the LLM, and can be extracted from the generated text without accessing the LLM. Comparing with related methods, the proposed method entangles the watermark with the intrinsic parameters of the LLM, which better balances the robustness and imperceptibility of the watermark. Moreover, the proposed method enables us to extract the watermark under the black-box scenario, which is computationally efficient for use. Experimental results have also verified the feasibility, superiority and practicality. This work provides a new perspective different from mainstream works, which may shed light on future research.

Ссылки и действия