SAEMark: Multi-bit LLM Watermarking with Inference-Time Scaling

2508.08211v1 cs.CL, cs.AI, cs.LG 2025-08-13
Авторы:

Zhuohao Yu, Xingru Jiang, Weizheng Gu, Yidong Wang, Shikun Zhang, Wei Ye

Резюме на русском

## Контекст На протяжении последних нескольких лет искусственные нейронные сети с последовательностным поведением (LLM) стали важной частью современных технологий, используемых в различных областях, включая генерацию текста, перевод и анализ языка. Однако с этим повышением применения возникают новые задачи, такие как вопросы юридической ответственности за содержимое, создаваемое этими технологиями, а также борьба с нежелательными материалами, такими как публикация массовых ложных новостей. Watermarking позволяет адресовать эти проблемы, обеспечивая возможность отслеживать источник текста и увеличивая прозрачность в массовом текстовом создании. Тем не менее, существующие методы watermarking имеют значительные ограничения: они требуют доступа к внутренней архитектуре модели, компрометируют качество генерируемого текста или непригодны для работы с API-моделями и многоязычными сценариями. Из-за этого необходимо развитие универсального, эффективного и качественного подхода для watermarking LLM. ## Метод SAEMark представляет собой новую фреймворк для пост-хок watermarking LLM, который не требует изменения модели или доступа к ее внутреннему состоянию. Этот метод основывается на анализе выданного LLM-текста в реальном времени с использованием вычислительно эффективного алгоритма режима отклонения выборки (rejection sampling). Основная идея заключается в том, чтобы искать текст, который соответствует заранее определенным статистическим характеристикам, заданным ключом watermarking. Этот ключ генерируется на основе личных символов, которые не должны были быть включены в исходный текст. SAEMark может работать с любым LLM вне зависимости от его архитектуры и размера, включая облачные сервисы. Благодаря использованию отказов в выборке, он позволяет добиться высокого качества текста, не изменяя модель или генерируемые тексты. ## Результаты Для проверки эффективности SAEMark проведены эксперименты на 4 различных наборах данных, включая основные английские и многоязычные тексты. Результаты показали, что фреймворк обеспечивает высокую точность восстановления watermark, достигая 99.7% на английском языке и показывая стабильную работу на других языках. Кроме того, SAEMark поддерживает возможность настройки watermark-а на несколько битов для разных целей, таких как указания авторства или борьба с ложными новостями. Важным достижением является то, что SAEMark позволяет достичь этих результатов при помощи простого интерфейса inference-time, не требуя дополнительного обучения или изменения модели. ## Значимость SAEMark демонстрирует значительный потенциал для различных применений в области акцентирования инф

Abstract

Watermarking LLM-generated text is critical for content attribution and misinformation prevention. However, existing methods compromise text quality, require white-box model access and logit manipulation. These limitations exclude API-based models and multilingual scenarios. We propose SAEMark, a general framework for post-hoc multi-bit watermarking that embeds personalized messages solely via inference-time, feature-based rejection sampling without altering model logits or requiring training. Our approach operates on deterministic features extracted from generated text, selecting outputs whose feature statistics align with key-derived targets. This framework naturally generalizes across languages and domains while preserving text quality through sampling LLM outputs instead of modifying. We provide theoretical guarantees relating watermark success probability and compute budget that hold for any suitable feature extractor. Empirically, we demonstrate the framework's effectiveness using Sparse Autoencoders (SAEs), achieving superior detection accuracy and text quality. Experiments across 4 datasets show SAEMark's consistent performance, with 99.7% F1 on English and strong multi-bit detection accuracy. SAEMark establishes a new paradigm for scalable watermarking that works out-of-the-box with closed-source LLMs while enabling content attribution.

Ссылки и действия