Factuality Beyond Coherence: Evaluating LLM Watermarking Methods for Medical Texts

2509.07755v1 cs.CL, cs.CR 2025-09-11

Авторы:

Rochana Prih Hastuti, Rian Adam Rajagede, Mansour Al Ghanim, Mengxin Zheng, Qian Lou

Резюме на русском

## Контекст Модели глубокого обучения, особенно большие модели языковых моделей (LLMs), получили широкое применение в сфере медицины, где их возможности использованы для анализа и генерирования текстов. Однако эти модели не безопасны в полной мере: их высокая флуентность может привести к проблемам целостности и проверяемости источников информации. Для устранения этих проблем вводятся методы watermarking, которые внедряют определенные закономерности в текст, чтобы подтвердить их происхождение и установить ответственность. Однако отсутствуют специализированные оценки этих методов в сфере медицинских текстов. Опубликованные работы фокусируются на торговой марке или запутанности, при этом не учитывают влияния watermarking на фактичность информации в медицинских текстах, которая важна для защиты от фальсификации. Наша работа направлена на заполнение этой гапа, предлагая метод оценки, который будет комбинировать аспекты фактичности и потоковости текста, для полной оценки методов watermarking в медицинских текстах. ## Метод Мы предлагаем новый подход к оценке того, насколько эффективно watermarking влияет на фактичность и потоковость текстов в медицинских контекстах. Работа базируется на GPT-Judger, платформе оценки для генерируемых текстов, и включает интеграцию людской оценки для улучшения точности. Основной фокус — создание метрики Factuality-Weighted Score (FWS), которая будет структурировать исследование в два измерения: фактичность и потоковость текста. Мы проводим несколько экспериментов с различными методами watermarking, чтобы оценить их способность сохранять фактичность текста, при этом не нарушая его потоковость. Для повышения точности результатов мы используем несколько этапов валидации, включая автоматические и ручные проверки. ## Результаты Мы выполнили эксперименты на нескольких моделях watermarking, оценивая их посредством FWS. Эксперименты показали, что многие методы watermarking значительно понижают фактичность текста в медицинских контекстах, особенно при уменьшении энтропии генерируемых слов. Например, в текстах, где использование низкоэнтропийных слов приводит к снижению объема медицинских сущностей, чтобы добиться более высокой потоковости. Эти результаты подтверждаются с помощью людских оценок, чтобы убедиться в точности исследования. Мы также обнаружили, что традиционные метрики, такие как торговой марк и запутанность, не полностью отражают потери фактичности, что делает важной новую комбинационную метрику FWS. ## Значимость Наши результаты имеют важное значение для практического применения watermarking в медицинских текстах

Abstract

As large language models (LLMs) adapted to sensitive domains such as medicine, their fluency raises safety risks, particularly regarding provenance and accountability. Watermarking embeds detectable patterns to mitigate these risks, yet its reliability in medical contexts remains untested. Existing benchmarks focus on detection-quality tradeoffs, overlooking factual risks under low-entropy settings often exploited by watermarking's reweighting strategy. We propose a medical-focused evaluation workflow that jointly assesses factual accuracy and coherence. Using GPT-Judger and further human validation, we introduce the Factuality-Weighted Score (FWS), a composite metric prioritizing factual accuracy beyond coherence to guide watermarking deployment in medical domains. Our evaluation shows current watermarking methods substantially compromise medical factuality, with entropy shifts degrading medical entity representation. These findings underscore the need for domain-aware watermarking approaches that preserve the integrity of medical content.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Factuality Beyond Coherence: Evaluating LLM Watermarking Methods for Medical Texts

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Evolve the Method, Not the Prompts: Evolutionary Synthesis of Jailbreak Attacks ...

LLM Reinforcement in Context

RegionMarker: A Region-Triggered Semantic Watermarking Framework for Embedding-a...

HLPD: Aligning LLMs to Human Language Preference for Machine-Revised Text Detect...

EnchTable: Unified Safety Alignment Transfer in Fine-tuned Large Language Models

Навигация