RL-Finetuned LLMs for Privacy-Preserving Synthetic Rewriting
2508.19286v1
cs.CR, cs.AI, cs.LG
2025-08-29
Авторы:
Zhan Shi, Yefeng Yuan, Yuhong Liu, Liang Cheng, Yi Fang
Резюме на русском
## Контекст
В настоящее время системы машинного обучения полагаются на большие и высококачественные данные, необходимые для эффективной моделирования и анализа. Однако многие такие данные включают в себя конфиденциальную информацию, которая может повлечь за собой риски для конфиденциальности и потенциальные нарушения законодательства. Ранее использованные методы анонимности часто оказываются недостаточно эффективными, так как не учитывают неявные признаки, такие как стиль письма или топический контекст. Эти неявные признаки могут быть использованы для идентификации исходного автора данных. В этом контексте важно разработать методы, которые не только обеспечат сохранение конфиденциальности, но и сохранят качество данных для применения в моделях машинного обучения.
## Метод
Мы предлагаем использовать процедуру гибкой оптимизации на основе алгоритмов глубокого обучения, которая заключается в том, чтобы применять модели глубокого обучения в качестве основы для повышения качества выводимых данных. Мы используем гибкие архитектуры, которые могут обрабатывать различные типы данных и изменяться в зависимости от конкретного задания. Наша модель основывается на подходе, который включает в себя совмещение различных наградных функций для оптимизации критериев качества, среди которых являются семантическая точность, обфускация исходного автора и разнообразие вывода. Мы также используем минимальные значения среднего значения для повышения эффективности процесса.
## Результаты
Мы проводим эксперименты на широком диапазоне данных, включая корпусы, содержащие конфиденциальные данные. Наши результаты показывают, что разработанная модель позволяет повысить уровень конфиденциальности данных, сохранив при этом качество и точность вывода. Мы также проводим сравнение с другими методами, показывающими, что наш подход показывает значительное преимущество в обеспечении конфиденциальности без существенного потери качества данных. Также мы проводим анализ изменений в структуре данных, показывающих, что наш подход уместно реагирует на необходимость обфускации стиля и контекста.
## Значимость
Наш подход имеет широкие возможноhedenо применения в различных областях, где необходимо обеспечение конфиденциальности данных. Например, он может применяться в медицине, финансах и юридических сферах, где качество и конфиденциальность данных являются критичными. Метод также может использоваться для создания более безопасных систем машинного обучения, уменьшая риск раскрытия конфиденциальной информации. Это может привести к повышению уровня доверия к системам, в которых используются синтетически
Abstract
The performance of modern machine learning systems depends on access to
large, high-quality datasets, often sourced from user-generated content or
proprietary, domain-specific corpora. However, these rich datasets inherently
contain sensitive personal information, raising significant concerns about
privacy, data security, and compliance with regulatory frameworks. While
conventional anonymization techniques can remove explicit identifiers, such
removal may result in performance drop in downstream machine learning tasks.
More importantly, simple anonymization may not be effective against inference
attacks that exploit implicit signals such as writing style, topical focus, or
demographic cues, highlighting the need for more robust privacy safeguards
during model training. To address the challenging issue of balancing user
privacy and data utility, we propose a reinforcement learning framework that
fine-tunes a large language model (LLM) using a composite reward function that
jointly optimizes for explicit and implicit privacy, semantic fidelity, and
output diversity. To effectively capture population level regularities, the
privacy reward combines semantic cues with structural patterns derived from a
minimum spanning tree (MST) over latent representations. By modeling these
privacy-sensitive signals in their distributional context, the proposed
approach guides the model to generate synthetic rewrites that preserve utility
while mitigating privacy risks. Empirical results show that the proposed method
significantly enhances author obfuscation and privacy metrics without degrading
semantic quality, providing a scalable and model-agnostic solution for privacy
preserving data generation in the era of large language models.
Ссылки и действия
Дополнительные ресурсы: