RL-Finetuned LLMs for Privacy-Preserving Synthetic Rewriting

2508.19286v1 cs.CR, cs.AI, cs.LG 2025-08-29
Авторы:

Zhan Shi, Yefeng Yuan, Yuhong Liu, Liang Cheng, Yi Fang

Резюме на русском

## Контекст В настоящее время системы машинного обучения полагаются на большие и высококачественные данные, необходимые для эффективной моделирования и анализа. Однако многие такие данные включают в себя конфиденциальную информацию, которая может повлечь за собой риски для конфиденциальности и потенциальные нарушения законодательства. Ранее использованные методы анонимности часто оказываются недостаточно эффективными, так как не учитывают неявные признаки, такие как стиль письма или топический контекст. Эти неявные признаки могут быть использованы для идентификации исходного автора данных. В этом контексте важно разработать методы, которые не только обеспечат сохранение конфиденциальности, но и сохранят качество данных для применения в моделях машинного обучения. ## Метод Мы предлагаем использовать процедуру гибкой оптимизации на основе алгоритмов глубокого обучения, которая заключается в том, чтобы применять модели глубокого обучения в качестве основы для повышения качества выводимых данных. Мы используем гибкие архитектуры, которые могут обрабатывать различные типы данных и изменяться в зависимости от конкретного задания. Наша модель основывается на подходе, который включает в себя совмещение различных наградных функций для оптимизации критериев качества, среди которых являются семантическая точность, обфускация исходного автора и разнообразие вывода. Мы также используем минимальные значения среднего значения для повышения эффективности процесса. ## Результаты Мы проводим эксперименты на широком диапазоне данных, включая корпусы, содержащие конфиденциальные данные. Наши результаты показывают, что разработанная модель позволяет повысить уровень конфиденциальности данных, сохранив при этом качество и точность вывода. Мы также проводим сравнение с другими методами, показывающими, что наш подход показывает значительное преимущество в обеспечении конфиденциальности без существенного потери качества данных. Также мы проводим анализ изменений в структуре данных, показывающих, что наш подход уместно реагирует на необходимость обфускации стиля и контекста. ## Значимость Наш подход имеет широкие возможноhedenо применения в различных областях, где необходимо обеспечение конфиденциальности данных. Например, он может применяться в медицине, финансах и юридических сферах, где качество и конфиденциальность данных являются критичными. Метод также может использоваться для создания более безопасных систем машинного обучения, уменьшая риск раскрытия конфиденциальной информации. Это может привести к повышению уровня доверия к системам, в которых используются синтетически

Abstract

The performance of modern machine learning systems depends on access to large, high-quality datasets, often sourced from user-generated content or proprietary, domain-specific corpora. However, these rich datasets inherently contain sensitive personal information, raising significant concerns about privacy, data security, and compliance with regulatory frameworks. While conventional anonymization techniques can remove explicit identifiers, such removal may result in performance drop in downstream machine learning tasks. More importantly, simple anonymization may not be effective against inference attacks that exploit implicit signals such as writing style, topical focus, or demographic cues, highlighting the need for more robust privacy safeguards during model training. To address the challenging issue of balancing user privacy and data utility, we propose a reinforcement learning framework that fine-tunes a large language model (LLM) using a composite reward function that jointly optimizes for explicit and implicit privacy, semantic fidelity, and output diversity. To effectively capture population level regularities, the privacy reward combines semantic cues with structural patterns derived from a minimum spanning tree (MST) over latent representations. By modeling these privacy-sensitive signals in their distributional context, the proposed approach guides the model to generate synthetic rewrites that preserve utility while mitigating privacy risks. Empirical results show that the proposed method significantly enhances author obfuscation and privacy metrics without degrading semantic quality, providing a scalable and model-agnostic solution for privacy preserving data generation in the era of large language models.

Ссылки и действия