Robustness Assessment and Enhancement of Text Watermarking for Google's SynthID
2508.20228v1
cs.CR, cs.CL
2025-08-30
Авторы:
Xia Han, Qi Li, Jianbing Ni, Mohammad Zulkernine
Резюме на русском
## Контекст
В последние годы становится все более актуальным вопрос о точном отслеживании происхождения AI-генерируемого текста. Одним из важных методов является текстовый водяной знак (watermarking), который позволяет доказать владение или происхождение текста. Несмотря на развитие методов, таких как SynthID-Text от Google DeepMind, эти методы остаются уязвимыми перед определенными атаками, например, парафразированием, копированием и вставкой текста, а также технологиями перевода в обратную сторону (back-translation). Эти атаки могут существенно снизить эффективность водяных знаков, особенно в реальных условиях использования. Таким образом, вопрос о повышении устойчивости таких методов к таким нападениям становится ключевым для их реального применения в защите творческих работ.
## Метод
Для решения проблемы уязвимости текстовых водяных знаков, мы предлагаем SynGuard — новую гибридную модель, которая объединяет два подхода: Semantic Information Retrieval (SIR) и probabilistic watermarking. SIR позволяет обеспечить сильное соответствие семантики между текстом и водяным знаком, чтобы гарантировать устойчивость к методам, которые могут изменять текст с минимальными семантическими изменениями. В то же время, probabilistic watermarking генерирует водяные знаки на основе многоуровневой структуры, которые могут быть выделены при необходимости. Этот двойной подход позволяет обеспечить устойчивость к атакам, уменьшая нарушение смысла и сохраняя возможность восстановления водяных знаков.
## Результаты
Мы провели эксперименты, использовав различные виды атак, включая парафразирование, копирование и вставку текста, а также back-translation. Наши результаты показывают, что SynGuard показывает значительный улучшение восстановления водяных знаков, стабильно увеличивая F1-меру на 11.1% в сравнении с оригинальным SynthID-Text. Это указывает на высокую эффективность гибридного подхода в сохранении водяных знаков при атаках, предназначенных нарушать их защиту. Эксперименты проводились на реальных данных, а результаты подтверждают нашу теоретическую модель.
## Значимость
Основное применение SynGuard заключается в обеспечении устойчивости текстовых водяных знаков в условиях реального использования, где текст может быть изменен без изменения его смысла. Эта модель является полезной для защиты творческих работ, легальных документов и других текстов, где владение и происхождение имеют высокий важность. Данный подход также открывает пути к будущим исследованиям в области гибридных методов, которые могут быть применены в других аналогичных задачах, таких как защита цифровых медиа.
## Выводы
Результаты нашего исследования показываю
Abstract
Recent advances in LLM watermarking methods such as SynthID-Text by Google
DeepMind offer promising solutions for tracing the provenance of AI-generated
text. However, our robustness assessment reveals that SynthID-Text is
vulnerable to meaning-preserving attacks, such as paraphrasing, copy-paste
modifications, and back-translation, which can significantly degrade watermark
detectability. To address these limitations, we propose SynGuard, a hybrid
framework that combines the semantic alignment strength of Semantic Information
Retrieval (SIR) with the probabilistic watermarking mechanism of SynthID-Text.
Our approach jointly embeds watermarks at both lexical and semantic levels,
enabling robust provenance tracking while preserving the original meaning.
Experimental results across multiple attack scenarios show that SynGuard
improves watermark recovery by an average of 11.1\% in F1 score compared to
SynthID-Text. These findings demonstrate the effectiveness of semantic-aware
watermarking in resisting real-world tampering. All code, datasets, and
evaluation scripts are publicly available at:
https://github.com/githshine/SynGuard.
Ссылки и действия
Дополнительные ресурсы: