Factuality Beyond Coherence: Evaluating LLM Watermarking Methods for Medical Texts
2509.07755v1
cs.CL, cs.CR
2025-09-11
Авторы:
Rochana Prih Hastuti, Rian Adam Rajagede, Mansour Al Ghanim, Mengxin Zheng, Qian Lou
Резюме на русском
## Контекст
Модели глубокого обучения, особенно большие модели языковых моделей (LLMs), получили широкое применение в сфере медицины, где их возможности использованы для анализа и генерирования текстов. Однако эти модели не безопасны в полной мере: их высокая флуентность может привести к проблемам целостности и проверяемости источников информации. Для устранения этих проблем вводятся методы watermarking, которые внедряют определенные закономерности в текст, чтобы подтвердить их происхождение и установить ответственность. Однако отсутствуют специализированные оценки этих методов в сфере медицинских текстов. Опубликованные работы фокусируются на торговой марке или запутанности, при этом не учитывают влияния watermarking на фактичность информации в медицинских текстах, которая важна для защиты от фальсификации. Наша работа направлена на заполнение этой гапа, предлагая метод оценки, который будет комбинировать аспекты фактичности и потоковости текста, для полной оценки методов watermarking в медицинских текстах.
## Метод
Мы предлагаем новый подход к оценке того, насколько эффективно watermarking влияет на фактичность и потоковость текстов в медицинских контекстах. Работа базируется на GPT-Judger, платформе оценки для генерируемых текстов, и включает интеграцию людской оценки для улучшения точности. Основной фокус — создание метрики Factuality-Weighted Score (FWS), которая будет структурировать исследование в два измерения: фактичность и потоковость текста. Мы проводим несколько экспериментов с различными методами watermarking, чтобы оценить их способность сохранять фактичность текста, при этом не нарушая его потоковость. Для повышения точности результатов мы используем несколько этапов валидации, включая автоматические и ручные проверки.
## Результаты
Мы выполнили эксперименты на нескольких моделях watermarking, оценивая их посредством FWS. Эксперименты показали, что многие методы watermarking значительно понижают фактичность текста в медицинских контекстах, особенно при уменьшении энтропии генерируемых слов. Например, в текстах, где использование низкоэнтропийных слов приводит к снижению объема медицинских сущностей, чтобы добиться более высокой потоковости. Эти результаты подтверждаются с помощью людских оценок, чтобы убедиться в точности исследования. Мы также обнаружили, что традиционные метрики, такие как торговой марк и запутанность, не полностью отражают потери фактичности, что делает важной новую комбинационную метрику FWS.
## Значимость
Наши результаты имеют важное значение для практического применения watermarking в медицинских текстах
Abstract
As large language models (LLMs) adapted to sensitive domains such as
medicine, their fluency raises safety risks, particularly regarding provenance
and accountability. Watermarking embeds detectable patterns to mitigate these
risks, yet its reliability in medical contexts remains untested. Existing
benchmarks focus on detection-quality tradeoffs, overlooking factual risks
under low-entropy settings often exploited by watermarking's reweighting
strategy. We propose a medical-focused evaluation workflow that jointly
assesses factual accuracy and coherence. Using GPT-Judger and further human
validation, we introduce the Factuality-Weighted Score (FWS), a composite
metric prioritizing factual accuracy beyond coherence to guide watermarking
deployment in medical domains. Our evaluation shows current watermarking
methods substantially compromise medical factuality, with entropy shifts
degrading medical entity representation. These findings underscore the need for
domain-aware watermarking approaches that preserve the integrity of medical
content.
Ссылки и действия
Дополнительные ресурсы: