Adaptive Backtracking for Privacy Protection in Large Language Models

2508.06087v1 cs.CR, cs.LG, stat.ML 2025-08-12
Авторы:

Zhihao Yao, Yuxuan Gu, Xiachong Feng, Weitao Ma, Bo Li, Xiaocheng Feng

Резюме на русском

## Контекст Сохранение приватности в постепенно развивающемся мире искусственного интеллекта является ключевым аспектом, особенно при развитии сложных технологий, таких как БоLТ (Retrieval-Augmented Generation). Однако существуют серьезные проблемы, такие как риск утечки корпоративных данных при использовании данных с рабочего стола. Многие ранее предложенные методы, такие как очистка данных, часто приводят к существенной потере качества модели и неэффективности в реальных сценариях. Добавляется к этому недостаток в общедоступных данных для отладки и оценки этих систем. Таким образом, есть необходимость в развитии новых подходов, которые могут эффективно обеспечить приватность без нарушения качества модели. ## Метод Метод предложенной системы, названной ABack (Adaptive Backtracking), основывается на использовании Hidden State Model (HSM) для определения и корректировки выходных данных модели. Он осуществляется без необходимости переобучения модели. Благодаря этому, модель может эффективно предотвратить утечки данных, оставаясь эффективной в своих основных функциях. Также был разработан новый датасет PriGenQA, охватывающий сценарии применения в сферах здравоохранения и финансов. Для того чтобы оценивать показатели модели в условиях атак, был предложен новый сильный адаптивный атакующий алгоритм с использованием Group Relative Policy Optimization, который моделирует более реалистичные угрозы. ## Результаты Используя PriGenQA, проведены ряд экспериментов, сравнивая ABack с другими популярными подходами, такими как sanitization методы. Результаты показали, что ABack достигает до 15% более высокого показателя privacy utility (по отношению к риску утечки данных), сравниваясь с базовыми методами, при этом не приводя к снижению качества модели. Кроме того, система продемонстрировала способность эффективно обнаруживать и корректировать утечки данных в различных контекстах, не теряя в целостности выполнения задач. ## Значимость ABack может быть применен в широком спектре областей, где требуется обеспечение приватности данных, таких как здравоохранение, финансы и другие секретные области. Он предлагает значительные преимущества по сравнению с базовыми методами, особенно в тех случаях, когда требуется обеспечение приватности без значительного ущерба качеству модели. Это может привести к новым возможностям в развитии безопасных и эффективных моделей, использующих Retrieval-Augmented Generation. ## Выводы ABack представляет собой прорыв в области приватности для моделей БоLТ, обеспечивая эффективное решение проблемы утечки данных без потерь в эффективности. Он открывает новые возможности для развития безопасных и приватных моделей, а также может стать базой для дальнейши

Abstract

The preservation of privacy has emerged as a critical topic in the era of artificial intelligence. However, current work focuses on user-oriented privacy, overlooking severe enterprise data leakage risks exacerbated by the Retrieval-Augmented Generation paradigm. To address this gap, our paper introduces a novel objective: enterprise-oriented privacy concerns. Achieving this objective requires overcoming two fundamental challenges: existing methods such as data sanitization severely degrade model performance, and the field lacks public datasets for evaluation. We address these challenges with several solutions. (1) To prevent performance degradation, we propose ABack, a training-free mechanism that leverages a Hidden State Model to pinpoint the origin of a leakage intention and rewrite the output safely. (2) To solve the lack of datasets, we construct PriGenQA, a new benchmark for enterprise privacy scenarios in healthcare and finance. To ensure a rigorous evaluation, we move beyond simple static attacks by developing a powerful adaptive attacker with Group Relative Policy Optimization. Experiments show that against this superior adversary, ABack improves the overall privacy utility score by up to 15\% over strong baselines, avoiding the performance trade-offs of prior methods.

Ссылки и действия