Watermarking Diffusion Language Models

2509.24368v1 cs.LG, cs.AI, cs.CR 2025-10-01
Авторы:

Thibaud Gloaguen, Robin Staab, Nikola Jovanović, Martin Vechev

Резюме на русском

## Контекст Диффузионные языковые модели (DLMs) представляют собой новую парадигму в области генерируемых текстов, в которой токены формируются в произвольном порядке, в отличие от авторегрессионных языковых моделей (ARLMs), где генерация происходит последовательно. Это принципиально новое подходение к генерации текста, но его применение сталкивается с уникальными проблемами, в том числе с тем, что актуальные методы водяного знака (watermarking), разработанные для ARLMs, не могут быть напрямую применены к DLMs из-за отсутствия последовательности токенов в процессе генерации. Наша мотивация заключается в развитии эффективного метода водяного знака, принадлежность которого к DLMs можно доказать с высоким уровнем уверенности. ## Метод Мы предлагаем метод водяного знака, который работает на основе ожидаемого поведения DLMs в зависимости от контекста. Наша техника включает два основных элемента: (i) водяной знак создается на основе ожидаемого поведения в тексте, даже если некоторые токены в контексте еще не определены, и (ii) мы используем специальные токены, которые усиливают распознаваемость водяного знака при использовании их в качестве контекста для других токенов. Этот подход не требует изменений в самой модели генерации текста, а заключается в простой модификации подхода к водяному знаку. ## Результаты Мы проводили эксперименты с несколькими DLMs, измеряя две ключевые метрики: (i) **True Positive Rate (TPR)** — установление принадлежности текста к DLMs с высоким уверенностью, и (ii) **Impact on Model Quality** — измерение качества текста, генерируемого моделью после водяного знака. Наши результаты показывают, что водяной знак для DLMs обеспечивает **>99% TPR**, что значительно превосходит уровень распознаваемости в предыдущих схемах для ARLMs. Более того, качество генерируемого текста остается на высоком уровне, что демонстрирует эффективность подхода. ## Значимость Водяной знак для DLMs может быть применен в различных сценариях, включая предотвращение несанкционированного использования моделей, проверку подлинности текста, и даже мониторинг генерируемых текстов в приложениях. Метод обеспечивает отличный баланс между уверенностью распознавания водяного знака и качеством генерируемого текста. Это делает его привлекательным для реализации в масштабных текстовых приложениях, где надежность и качество текста крайне важны. ## Выводы Мы представили первый эффективный метод водяного знака, работающий для DLMs. Наш подход не только доказал свою эффективность с высоким TPR, но и подтвердил свою надежность в различных сценариях. Мы планируем продолжать работу над у

Abstract

We introduce the first watermark tailored for diffusion language models (DLMs), an emergent LLM paradigm able to generate tokens in arbitrary order, in contrast to standard autoregressive language models (ARLMs) which generate tokens sequentially. While there has been much work in ARLM watermarking, a key challenge when attempting to apply these schemes directly to the DLM setting is that they rely on previously generated tokens, which are not always available with DLM generation. In this work we address this challenge by: (i) applying the watermark in expectation over the context even when some context tokens are yet to be determined, and (ii) promoting tokens which increase the watermark strength when used as context for other tokens. This is accomplished while keeping the watermark detector unchanged. Our experimental evaluation demonstrates that the DLM watermark leads to a >99% true positive rate with minimal quality impact and achieves similar robustness to existing ARLM watermarks, enabling for the first time reliable DLM watermarking.

Ссылки и действия