PMark: Towards Robust and Distortion-free Semantic-level Watermarking with Channel Constraints
2509.21057v1
cs.CR, cs.CL
2025-09-27
Авторы:
Jiahao Huo, Shuliang Liu, Bin Wang, Junyan Zhang, Yibo Yan, Aiwei Liu, Xuming Hu, Mingxun Zhou
Резюме на русском
#### Контекст
Появление больших языковых моделей (LLMs) в последнее время стало сильным двигателем развития искусственного интеллекта, предоставляя мощные инструменты для генерирования текста. Однако эти модели не являются идеальными: они могут легко исказиться под действием атак, включая модификации и парафразирование текста. Чтобы обеспечить безопасность и авторство, развитие эффективного метода watermarking (метки водяных знаков) для LLMs стало ключевым. Некоторые текущие решения, основывающиеся на традиционных подходах, показывают недостаточную гибкость и имеют слабые теоретические гарантии. Другие подходы, основанные на reject-sampling, часто приводят к существенным изменениям в распределении текста, что снижает качество и удобочитаемость. Данная статья фокусируется на этих проблемах, предлагая новую теоретическую модель для улучшения водояных знаков на семантическом уровне (semantic-level watermarking, SWM).
#### Метод
Мы предлагаем новую теоретическую модель для SWM, основанную на концепции proxy functions (PF). Эти функции преобразуют отдельные предложения в скалярные значения, позволяя оценивать семантический контент. На основе этой модели, мы представляем PMark — новую SWM-методику, которая динамически оптимизирует PF-медиану для каждого предложения с помощью процедуры семплирования. Для усиления watermarking-сигнала мы вводим множество PF-контрольных каналов (channels). Таким образом, PMark обеспечивает робастную семантическую водояную метку, которая устойчива к парафразированию и модификациям текста. Для лучшей эффективности мы также предлагаем оптимизированную версию PMark, убирающую необходимость динамического оценивания медианы PF.
#### Результаты
Мы проводим различные эксперименты, включая сравнение с тремя существующими SWM-методами, для оценки качества текста и устойчивости к атакам. Используя разные тестовые тексты, мы демонстрируем, что PMark сохраняет достоверную водояную метку даже в условиях сильных атак, без заметного снижения качества текста. Кроме того, оптимизированная версия PMark показывает значительные улучшения в производительности семплирования, что увеличивает эффективность при реализации в производственных условиях.
#### Значимость
Метод PMark имеет широкие области применения, включая защиту авторских прав на LLMs, системы мониторинга для смарт-ассистентов, идентификацию авторства в обучении LLMs и другие задачи, требующие гарантий надёжности в текстовых данных. Он обеспечивает высокую устойчивость к атакам, не требуя серьёзных изменений в тексте и сохраняя высокое качество. Это делает PMark подходом
Abstract
Semantic-level watermarking (SWM) for large language models (LLMs) enhances
watermarking robustness against text modifications and paraphrasing attacks by
treating the sentence as the fundamental unit. However, existing methods still
lack strong theoretical guarantees of robustness, and reject-sampling-based
generation often introduces significant distribution distortions compared with
unwatermarked outputs. In this work, we introduce a new theoretical framework
on SWM through the concept of proxy functions (PFs) $\unicode{x2013}$ functions
that map sentences to scalar values. Building on this framework, we propose
PMark, a simple yet powerful SWM method that estimates the PF median for the
next sentence dynamically through sampling while enforcing multiple PF
constraints (which we call channels) to strengthen watermark evidence. Equipped
with solid theoretical guarantees, PMark achieves the desired distortion-free
property and improves the robustness against paraphrasing-style attacks. We
also provide an empirically optimized version that further removes the
requirement for dynamical median estimation for better sampling efficiency.
Experimental results show that PMark consistently outperforms existing SWM
baselines in both text quality and robustness, offering a more effective
paradigm for detecting machine-generated text. Our code will be released at
[this URL](https://github.com/PMark-repo/PMark).
Ссылки и действия
Дополнительные ресурсы: