SAEMark: Multi-bit LLM Watermarking with Inference-Time Scaling
2508.08211v1
cs.CL, cs.AI, cs.LG
2025-08-13
Авторы:
Zhuohao Yu, Xingru Jiang, Weizheng Gu, Yidong Wang, Shikun Zhang, Wei Ye
Резюме на русском
## Контекст
На протяжении последних нескольких лет искусственные нейронные сети с последовательностным поведением (LLM) стали важной частью современных технологий, используемых в различных областях, включая генерацию текста, перевод и анализ языка. Однако с этим повышением применения возникают новые задачи, такие как вопросы юридической ответственности за содержимое, создаваемое этими технологиями, а также борьба с нежелательными материалами, такими как публикация массовых ложных новостей. Watermarking позволяет адресовать эти проблемы, обеспечивая возможность отслеживать источник текста и увеличивая прозрачность в массовом текстовом создании. Тем не менее, существующие методы watermarking имеют значительные ограничения: они требуют доступа к внутренней архитектуре модели, компрометируют качество генерируемого текста или непригодны для работы с API-моделями и многоязычными сценариями. Из-за этого необходимо развитие универсального, эффективного и качественного подхода для watermarking LLM.
## Метод
SAEMark представляет собой новую фреймворк для пост-хок watermarking LLM, который не требует изменения модели или доступа к ее внутреннему состоянию. Этот метод основывается на анализе выданного LLM-текста в реальном времени с использованием вычислительно эффективного алгоритма режима отклонения выборки (rejection sampling). Основная идея заключается в том, чтобы искать текст, который соответствует заранее определенным статистическим характеристикам, заданным ключом watermarking. Этот ключ генерируется на основе личных символов, которые не должны были быть включены в исходный текст. SAEMark может работать с любым LLM вне зависимости от его архитектуры и размера, включая облачные сервисы. Благодаря использованию отказов в выборке, он позволяет добиться высокого качества текста, не изменяя модель или генерируемые тексты.
## Результаты
Для проверки эффективности SAEMark проведены эксперименты на 4 различных наборах данных, включая основные английские и многоязычные тексты. Результаты показали, что фреймворк обеспечивает высокую точность восстановления watermark, достигая 99.7% на английском языке и показывая стабильную работу на других языках. Кроме того, SAEMark поддерживает возможность настройки watermark-а на несколько битов для разных целей, таких как указания авторства или борьба с ложными новостями. Важным достижением является то, что SAEMark позволяет достичь этих результатов при помощи простого интерфейса inference-time, не требуя дополнительного обучения или изменения модели.
## Значимость
SAEMark демонстрирует значительный потенциал для различных применений в области акцентирования инф
Abstract
Watermarking LLM-generated text is critical for content attribution and
misinformation prevention. However, existing methods compromise text quality,
require white-box model access and logit manipulation. These limitations
exclude API-based models and multilingual scenarios. We propose SAEMark, a
general framework for post-hoc multi-bit watermarking that embeds personalized
messages solely via inference-time, feature-based rejection sampling without
altering model logits or requiring training. Our approach operates on
deterministic features extracted from generated text, selecting outputs whose
feature statistics align with key-derived targets. This framework naturally
generalizes across languages and domains while preserving text quality through
sampling LLM outputs instead of modifying. We provide theoretical guarantees
relating watermark success probability and compute budget that hold for any
suitable feature extractor. Empirically, we demonstrate the framework's
effectiveness using Sparse Autoencoders (SAEs), achieving superior detection
accuracy and text quality. Experiments across 4 datasets show SAEMark's
consistent performance, with 99.7% F1 on English and strong multi-bit detection
accuracy. SAEMark establishes a new paradigm for scalable watermarking that
works out-of-the-box with closed-source LLMs while enabling content
attribution.
Ссылки и действия
Дополнительные ресурсы: