PMark: Towards Robust and Distortion-free Semantic-level Watermarking with Channel Constraints

2509.21057v1 cs.CR, cs.CL 2025-09-27

Авторы:

Jiahao Huo, Shuliang Liu, Bin Wang, Junyan Zhang, Yibo Yan, Aiwei Liu, Xuming Hu, Mingxun Zhou

Резюме на русском

#### Контекст Появление больших языковых моделей (LLMs) в последнее время стало сильным двигателем развития искусственного интеллекта, предоставляя мощные инструменты для генерирования текста. Однако эти модели не являются идеальными: они могут легко исказиться под действием атак, включая модификации и парафразирование текста. Чтобы обеспечить безопасность и авторство, развитие эффективного метода watermarking (метки водяных знаков) для LLMs стало ключевым. Некоторые текущие решения, основывающиеся на традиционных подходах, показывают недостаточную гибкость и имеют слабые теоретические гарантии. Другие подходы, основанные на reject-sampling, часто приводят к существенным изменениям в распределении текста, что снижает качество и удобочитаемость. Данная статья фокусируется на этих проблемах, предлагая новую теоретическую модель для улучшения водояных знаков на семантическом уровне (semantic-level watermarking, SWM). #### Метод Мы предлагаем новую теоретическую модель для SWM, основанную на концепции proxy functions (PF). Эти функции преобразуют отдельные предложения в скалярные значения, позволяя оценивать семантический контент. На основе этой модели, мы представляем PMark — новую SWM-методику, которая динамически оптимизирует PF-медиану для каждого предложения с помощью процедуры семплирования. Для усиления watermarking-сигнала мы вводим множество PF-контрольных каналов (channels). Таким образом, PMark обеспечивает робастную семантическую водояную метку, которая устойчива к парафразированию и модификациям текста. Для лучшей эффективности мы также предлагаем оптимизированную версию PMark, убирающую необходимость динамического оценивания медианы PF. #### Результаты Мы проводим различные эксперименты, включая сравнение с тремя существующими SWM-методами, для оценки качества текста и устойчивости к атакам. Используя разные тестовые тексты, мы демонстрируем, что PMark сохраняет достоверную водояную метку даже в условиях сильных атак, без заметного снижения качества текста. Кроме того, оптимизированная версия PMark показывает значительные улучшения в производительности семплирования, что увеличивает эффективность при реализации в производственных условиях. #### Значимость Метод PMark имеет широкие области применения, включая защиту авторских прав на LLMs, системы мониторинга для смарт-ассистентов, идентификацию авторства в обучении LLMs и другие задачи, требующие гарантий надёжности в текстовых данных. Он обеспечивает высокую устойчивость к атакам, не требуя серьёзных изменений в тексте и сохраняя высокое качество. Это делает PMark подходом

Abstract

Semantic-level watermarking (SWM) for large language models (LLMs) enhances watermarking robustness against text modifications and paraphrasing attacks by treating the sentence as the fundamental unit. However, existing methods still lack strong theoretical guarantees of robustness, and reject-sampling-based generation often introduces significant distribution distortions compared with unwatermarked outputs. In this work, we introduce a new theoretical framework on SWM through the concept of proxy functions (PFs) $\unicode{x2013}$ functions that map sentences to scalar values. Building on this framework, we propose PMark, a simple yet powerful SWM method that estimates the PF median for the next sentence dynamically through sampling while enforcing multiple PF constraints (which we call channels) to strengthen watermark evidence. Equipped with solid theoretical guarantees, PMark achieves the desired distortion-free property and improves the robustness against paraphrasing-style attacks. We also provide an empirically optimized version that further removes the requirement for dynamical median estimation for better sampling efficiency. Experimental results show that PMark consistently outperforms existing SWM baselines in both text quality and robustness, offering a more effective paradigm for detecting machine-generated text. Our code will be released at [this URL](https://github.com/PMark-repo/PMark).

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

PMark: Towards Robust and Distortion-free Semantic-level Watermarking with Channel Constraints

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Factor(T,U): Factored Cognition Strengthens Monitoring of Untrusted AI

LeechHijack: Covert Computational Resource Exploitation in Intelligent Agent Sys...

PRISM: Privacy-Aware Routing for Adaptive Cloud-Edge LLM Inference via Semantic ...

Understanding and Mitigating Over-refusal for Large Language Models via Safety R...

PSM: Prompt Sensitivity Minimization via LLM-Guided Black-Box Optimization

Навигация