Robustness Assessment and Enhancement of Text Watermarking for Google's SynthID

2508.20228v1 cs.CR, cs.CL 2025-08-30

Авторы:

Xia Han, Qi Li, Jianbing Ni, Mohammad Zulkernine

Резюме на русском

## Контекст В последние годы становится все более актуальным вопрос о точном отслеживании происхождения AI-генерируемого текста. Одним из важных методов является текстовый водяной знак (watermarking), который позволяет доказать владение или происхождение текста. Несмотря на развитие методов, таких как SynthID-Text от Google DeepMind, эти методы остаются уязвимыми перед определенными атаками, например, парафразированием, копированием и вставкой текста, а также технологиями перевода в обратную сторону (back-translation). Эти атаки могут существенно снизить эффективность водяных знаков, особенно в реальных условиях использования. Таким образом, вопрос о повышении устойчивости таких методов к таким нападениям становится ключевым для их реального применения в защите творческих работ. ## Метод Для решения проблемы уязвимости текстовых водяных знаков, мы предлагаем SynGuard — новую гибридную модель, которая объединяет два подхода: Semantic Information Retrieval (SIR) и probabilistic watermarking. SIR позволяет обеспечить сильное соответствие семантики между текстом и водяным знаком, чтобы гарантировать устойчивость к методам, которые могут изменять текст с минимальными семантическими изменениями. В то же время, probabilistic watermarking генерирует водяные знаки на основе многоуровневой структуры, которые могут быть выделены при необходимости. Этот двойной подход позволяет обеспечить устойчивость к атакам, уменьшая нарушение смысла и сохраняя возможность восстановления водяных знаков. ## Результаты Мы провели эксперименты, использовав различные виды атак, включая парафразирование, копирование и вставку текста, а также back-translation. Наши результаты показывают, что SynGuard показывает значительный улучшение восстановления водяных знаков, стабильно увеличивая F1-меру на 11.1% в сравнении с оригинальным SynthID-Text. Это указывает на высокую эффективность гибридного подхода в сохранении водяных знаков при атаках, предназначенных нарушать их защиту. Эксперименты проводились на реальных данных, а результаты подтверждают нашу теоретическую модель. ## Значимость Основное применение SynGuard заключается в обеспечении устойчивости текстовых водяных знаков в условиях реального использования, где текст может быть изменен без изменения его смысла. Эта модель является полезной для защиты творческих работ, легальных документов и других текстов, где владение и происхождение имеют высокий важность. Данный подход также открывает пути к будущим исследованиям в области гибридных методов, которые могут быть применены в других аналогичных задачах, таких как защита цифровых медиа. ## Выводы Результаты нашего исследования показываю

Abstract

Recent advances in LLM watermarking methods such as SynthID-Text by Google DeepMind offer promising solutions for tracing the provenance of AI-generated text. However, our robustness assessment reveals that SynthID-Text is vulnerable to meaning-preserving attacks, such as paraphrasing, copy-paste modifications, and back-translation, which can significantly degrade watermark detectability. To address these limitations, we propose SynGuard, a hybrid framework that combines the semantic alignment strength of Semantic Information Retrieval (SIR) with the probabilistic watermarking mechanism of SynthID-Text. Our approach jointly embeds watermarks at both lexical and semantic levels, enabling robust provenance tracking while preserving the original meaning. Experimental results across multiple attack scenarios show that SynGuard improves watermark recovery by an average of 11.1\% in F1 score compared to SynthID-Text. These findings demonstrate the effectiveness of semantic-aware watermarking in resisting real-world tampering. All code, datasets, and evaluation scripts are publicly available at: https://github.com/githshine/SynGuard.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Robustness Assessment and Enhancement of Text Watermarking for Google's SynthID

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Factor(T,U): Factored Cognition Strengthens Monitoring of Untrusted AI

LeechHijack: Covert Computational Resource Exploitation in Intelligent Agent Sys...

PRISM: Privacy-Aware Routing for Adaptive Cloud-Edge LLM Inference via Semantic ...

Understanding and Mitigating Over-refusal for Large Language Models via Safety R...

PSM: Prompt Sensitivity Minimization via LLM-Guided Black-Box Optimization

Навигация