The Double-edged Sword of LLM-based Data Reconstruction: Understanding and Mitigating Contextual Vulnerability in Word-level Differential Privacy Text Sanitization

2508.18976v1 cs.CR, cs.CL 2025-08-28

Авторы:

Stephen Meisenbacher, Alexandra Klymenko, Andreea-Elena Bodea, Florian Matthes

Резюме на русском

## Контекст Дифференциальная приватность (DP) — это методология, обеспечивающая защиту частной информации в процессе обработки данных, за счет гарантии, что изменение одного или нескольких записей не повлияет на результат вычислений. Одним из приложений DP является текстовая обработка, где задача заключается в обезличивании текстов, сохранив их смысловую нагрузку. Несмотря на то, что методы обеспечения DP в текстовых данных позволяют получить проверенные защитные меры, они не всегда эффективны против атак на контекстные связи. Контекстные связи, оставляемые в результате случайности в процессе очистки текста, могут быть использованы для восстановления исходного содержания. Эта проблема, известная как **контекстная уязвимость**, является значительным риском для применения DP на практике, особенно при использовании текстовых данных. В последнее время Large Language Models (LLMs) стали сильным инструментом для решения задач научной и практической природы. Мы рассматриваем возможность использования LLMs для восстановления оригинальных данных из текстов, обработанных методами DP. Это позволяет демонстрировать риски контекстной уязвимости и разрабатывать меры для усиления защиты. ## Метод Мы используем методы оценки контекстной уязвимости DP-текстов с помощью LLMs. Набор тестов включает различные методы очистки текста с разным уровнем защиты DP. Для оценки уязвимости мы применяем предварительно обученные LLMs, которые могут выполнять различные задачи, включая классификацию, распознавание сущностей и поиск контекстных связей. Мы оцениваем качество восстановления текстов, измеряя как точность восстановления, так и потерю уровня приватности. Также мы используем LLMs для разработки алгоритмов, улучшающих защиту текстов от возможных атак. ## Результаты В результате экспериментов мы установили, что LLMs могут эффективно восстанавливать информацию из текстов, очищенных методами DP, особенно в ситуациях, когда используются неэффективные методы защиты. Наше исследование показало, что уровень повреждения контекста в текстах может значительно влиять на успешность восстановления исходных данных. Данные, прошедшие методы дифференциальной приватности с высоким уровнем защиты, оказались менее уязвимы для восстановления, чем те, где защита была недостаточно сильна. Однако, при использовании LLMs для улучшения защиты, мы обнаружили, что они могут помочь снизить уровень уязвимости, при этом сохранив качество и полезность данных. ## Значимость Наше исследование показывает, что применение LLMs в задачах DP может иметь значительный потенциал, как в деструктивном, так и в конструктивном напра

Abstract

Differentially private text sanitization refers to the process of privatizing texts under the framework of Differential Privacy (DP), providing provable privacy guarantees while also empirically defending against adversaries seeking to harm privacy. Despite their simplicity, DP text sanitization methods operating at the word level exhibit a number of shortcomings, among them the tendency to leave contextual clues from the original texts due to randomization during sanitization $\unicode{x2013}$ this we refer to as $\textit{contextual vulnerability}$. Given the powerful contextual understanding and inference capabilities of Large Language Models (LLMs), we explore to what extent LLMs can be leveraged to exploit the contextual vulnerability of DP-sanitized texts. We expand on previous work not only in the use of advanced LLMs, but also in testing a broader range of sanitization mechanisms at various privacy levels. Our experiments uncover a double-edged sword effect of LLM-based data reconstruction attacks on privacy and utility: while LLMs can indeed infer original semantics and sometimes degrade empirical privacy protections, they can also be used for good, to improve the quality and privacy of DP-sanitized texts. Based on our findings, we propose recommendations for using LLM data reconstruction as a post-processing step, serving to increase privacy protection by thinking adversarially.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

The Double-edged Sword of LLM-based Data Reconstruction: Understanding and Mitigating Contextual Vulnerability in Word-level Differential Privacy Text Sanitization

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Factor(T,U): Factored Cognition Strengthens Monitoring of Untrusted AI

LeechHijack: Covert Computational Resource Exploitation in Intelligent Agent Sys...

PRISM: Privacy-Aware Routing for Adaptive Cloud-Edge LLM Inference via Semantic ...

Understanding and Mitigating Over-refusal for Large Language Models via Safety R...

PSM: Prompt Sensitivity Minimization via LLM-Guided Black-Box Optimization

Навигация