Improving Detection of Watermarked Language Models

2508.13131v1 cs.CL, cs.LG, stat.ML 2025-08-20
Авторы:

Dara Bahri, John Wieting

Резюме на русском

#### Контекст Детектирование генерируемых текстов вероятностными языковыми моделями (LLMs) становится все более важной проблемой в постепенном расширении их применения в реальной жизни. Одним из популярных способов обнаружения таких текстов является использование водяных знаков, но этот метод имеет определенные ограничения. Факторы, такие как ограниченная энтропия в моделях с постучиной обучением (например, RLHF), сокращают доступную информацию для детектирования. Таким образом, существует необходимость в развитии более эффективных способов обнаружения генерируемых текстов. В данной работе мы исследуем возможность улучшения детектирования с помощью комбинирования различных классов детекторов. #### Метод Мы обобщаем информацию, полученную из водяных знаков, интерполируя ее с данными, полученными с помощью неводяных детекторов. Проведенные эксперименты включают широкий класс моделей и наборов данных. Мы исследуем два класса метрик: одна опирается на характеристики генерируемого текста, а другая — на статистических характеристиках генератора. Кроме того, мы разрабатываем алгоритм, который учитывает вариации в энтропии моделей и их температуры генерации. Это позволяет регулировать точность и чувствительность детекторов в зависимости от условий. #### Результаты Мы провели ряд экспериментов на двух популярных моделях LLMs. Наши результаты показали, что гибридные схемы детектирования приводят к увеличению точности и менее чувствительности к изменениям в энтропии и температуре генерации. Например, одна из схем, включающая интерполяцию между водяными знаками и статистическими характеристиками, повысила точность с 75% до 85% при определенных условиях. Эти результаты демонстрируют, что комбинирование различных классов детекторов позволяет улучшить производительность даже в низкоэнтропийных условиях. #### Значимость Наши результаты имеют значительное значение для области машинного обучения и анализа текстов. Изменяющиеся требования к достоверности генерируемого текста, такие как в ситуациях, когда требуется обнаружение текстов, созданных моделями с низкой энтропией, могут быть удовлетворены с помощью данного подхода. Это также открывает новые возможности для улучшения технологий мониторинга генерируемого контента в Интернете, что может положительно сказаться на безопасности и честности цифровых интерфейсов. #### Выводы Наши исследования показали, что комбинирование различных классов детекторов является эффективным способом улучшения детектирова

Abstract

Watermarking has recently emerged as an effective strategy for detecting the generations of large language models (LLMs). The strength of a watermark typically depends strongly on the entropy afforded by the language model and the set of input prompts. However, entropy can be quite limited in practice, especially for models that are post-trained, for example via instruction tuning or reinforcement learning from human feedback (RLHF), which makes detection based on watermarking alone challenging. In this work, we investigate whether detection can be improved by combining watermark detectors with non-watermark ones. We explore a number of hybrid schemes that combine the two, observing performance gains over either class of detector under a wide range of experimental conditions.

Ссылки и действия