WISER: Segmenting watermarked region - an epidemic change-point perspective
2509.21160v1
stat.ML, cs.LG, stat.ME
2025-09-27
Авторы:
Soham Bonnerjee, Sayar Karmakar, Subhrajyoty Roy
Резюме на русском
## Контекст
Современные технологии позволяют генерировать текст с помощью глубоких нейронных сетей, превратив это в повседневный инструмент. Однако это привело к повышению вопросов о подлинности генерируемого контента. Watermarking стало популярным методом для доказательства владения текстом или его происхождения. Однако определение, какие фрагменты текста являются watermarked, является сложным заданием, особенно когда текст перепишен или модифицирован. Нарастающий интерес к этой задаче побудил авторов разработать новый подход к watermark segmentation с использованием эпидемических change-points.
## Метод
Предложенный подход, WISER (Watermark Segmentation via Epidemic Change-points), основывается на методах эпидемических change-points, которые были доминировали в статистической обработке данных. WISER рассматривает watermarking как вирусное распространение информации в тексте. Алгоритм использует функции, которые позволяют находить точки, где появляются водяные знаки, а также определять, какие части текста являются watermarked. Алгоритм имеет высокую эффективность и теоретически доказанную точность.
## Результаты
Авторы проверили WISER на нескольких benchmark-датасетах, включающих различные варианты водяных знаков. Алгоритм показал высокую точность в локализации watermarked сегментов и опередил существующие методы в скорости и точности. Эксперименты подтвердили, что WISER может эффективно обрабатывать тексты с разными водяными знаками и парафразированным контентом.
## Значимость
WISER может использоваться в различных сферах, где требуется установить подлинность или владение текстом, таких как защита авторских прав, борьба с нежелательным контентом или проверка нейрогенерируемого текста. Он предлагает выгоды в скорости выполнения и точности сравнения с остальными методами. Этот подход может стать важной частью технологий, применяемых в компьютерных зрении, естественном языковом обработке и дальнейшем развитии машинного обучения.
## Выводы
Авторы успешно показали, что WISER является эффективным инструментом для watermark segmentation. Он основывается на теоретической легитимности и вы most-setting. В будущем, WISER может быть развит для обработки более сложных случаев watermarking, включая нейрогенерируемый текст с сильными модификациями.
Abstract
With the increasing popularity of large language models, concerns over
content authenticity have led to the development of myriad watermarking
schemes. These schemes can be used to detect a machine-generated text via an
appropriate key, while being imperceptible to readers with no such keys. The
corresponding detection mechanisms usually take the form of statistical
hypothesis testing for the existence of watermarks, spurring extensive research
in this direction. However, the finer-grained problem of identifying which
segments of a mixed-source text are actually watermarked, is much less
explored; the existing approaches either lack scalability or theoretical
guarantees robust to paraphrase and post-editing. In this work, we introduce a
unique perspective to such watermark segmentation problems through the lens of
epidemic change-points. By highlighting the similarities as well as differences
of these two problems, we motivate and propose WISER: a novel, computationally
efficient, watermark segmentation algorithm. We theoretically validate our
algorithm by deriving finite sample error-bounds, and establishing its
consistency in detecting multiple watermarked segments in a single text.
Complementing these theoretical results, our extensive numerical experiments
show that WISER outperforms state-of-the-art baseline methods, both in terms of
computational speed as well as accuracy, on various benchmark datasets embedded
with diverse watermarking schemes. Our theoretical and empirical findings
establish WISER as an effective tool for watermark localization in most
settings. It also shows how insights from a classical statistical problem can
lead to a theoretically valid and computationally efficient solution of a
modern and pertinent problem.