LLM Watermark Evasion via Bias Inversion

2509.23019v1 cs.CR, cs.AI 2025-10-01
Авторы:

Jeongyeon Hwang, Sangdon Park, Jungseul Ok

Резюме на русском

## Контекст Отметьте, что в последние годы быстро развивается использование бо LLM (large language models) в различных сферах, например, в поисковых системах, виртуальных помощниках и даже в юридических системах. Одна из главных проблем при использовании таких моделей является возможность их незаконного использования. Чтобы более эффективно контролировать такое использование, было предложено применение водяных знаков (watermarking) — статистических признаков, которые внедряются в текст, генерируемый моделью. Это позволяет авторитетным лицам проверить, был ли текст сгенерирован определенной моделью. Однако есть необходимость в понимании того, насколько эти водяные знаки эффективны и надёжны, особенно в условиях атак, когда атакующий пытается их подделать или убрать. Таким образом, необходимо понять, насколько жесткой ли водяная метка в ней сигнала, чтобы можно было развивать лучшие методы защиты. ## Метод Методом для развития моделей водяных знаков была предложена Bias-Inversion Rewriting Attack (BIRA), которая является теоретически обоснованным и модель-агностичным подходом. BIRA использует метод повторного преобразования (rewriting) текста, при котором атакующий пытается уменьшить вероятность того, что генерируемый текст может быть загражден водяными знаками, путем изменения сигналов в начальных словах логита. Этот подход оптимизируется таким образом, чтобы изменения были незаметными для человека, но одновременно снижали значимость водяных знаков. Этот метод не требует знания того, как именно водяные знаки внедряются в модели, что делает его модель-агностичным. ## Результаты Результаты экспериментов показали, что BIRA позволяет снизить значимость водяных знаков до ничтожного уровня в 99% случаев, не изменяя семантическое содержание исходного текста. Это доказывает, что подход BIRA действительно эффективен и может быть использован для оценки силы водяных знаков. Опытным путем было показано, что даже если водяные знаки были хорошо заграждены в текст, BIRA может убрать их или сильно снизить их влияние. Это открывает возможность для более внимательного исследования возможности атак на водяные знаки и необходимости в развитии новых методов защиты. ## Значимость Полученные результаты имеют значимость в различных областях. Во-первых, BIRA может быть использована для тестирования силы водяных знаков в различных моделях и ситуациях. Во-вторых, результаты могут помочь разрабатывать лучшие методы защиты водяных знаков, чтобы улучшить их эффективность и надежность. В-третьих, появление этой атаки показывает, насколько важно проводи

Abstract

Watermarking for large language models (LLMs) embeds a statistical signal during generation to enable detection of model-produced text. While watermarking has proven effective in benign settings, its robustness under adversarial evasion remains contested. To advance a rigorous understanding and evaluation of such vulnerabilities, we propose the \emph{Bias-Inversion Rewriting Attack} (BIRA), which is theoretically motivated and model-agnostic. BIRA weakens the watermark signal by suppressing the logits of likely watermarked tokens during LLM-based rewriting, without any knowledge of the underlying watermarking scheme. Across recent watermarking methods, BIRA achieves over 99\% evasion while preserving the semantic content of the original text. Beyond demonstrating an attack, our results reveal a systematic vulnerability, emphasizing the need for stress testing and robust defenses.

Ссылки и действия