1-2-3 Check: Enhancing Contextual Privacy in LLM via Multi-Agent Reasoning

2508.07667v1 cs.AI 2025-08-13
Авторы:

Wenkai Li, Liwen Sun, Zhenxiang Guan, Xuhui Zhou, Maarten Sap

Резюме на русском

## Контекст В последние годы широко распространяются технологии на базе бо LLM (large language models), которые обеспечивают возможность удобного интерактивного общения с компьютером. Однако взаимодействие с LLMs может порождать загвоздки в обеспечении контекстуальной приватности, особенно в ситуациях, когда необходимо обрабатывать информацию, содержащую определенные частные подробности. Например, во время учебных или рабочих мероприятий могут возникать ситуации, когда необходимо отделять частные сведения от общедоступной информации. Эти проблемы приводят к потенциальным рискам, если LLMs неправильно интерпретируют данные, что может привести к утечке конфиденциальной информации. Улучшение методов обработки контекстуальной приватности в LLMs является ключевой целью, чтобы обеспечить безопасность и конфиденциальность пользователей. ## Метод Мы предлагаем многоагентную систему, которая декомпозирует задачу обеспечения контекстуальной приватности на отдельные подзадачи. Эти подзадачи включают в себя выделение конкретных фрагментов информации, их классификацию, а также их оценку с точки зрения контекстуальной приватности. Система построена таким образом, что каждый агент отвечает за свою специфическую подзадачу, что позволяет снизить нагрузку на каждый отдельный агент и улучшить общую производительность. Использование многоагентного подхода также позволяет проводить итеративную валидацию решений, что увеличивает надежность системы. Модель тестировалась на различных данных, включая конфиденциальные и публичные тексты, чтобы изучить, как различные типы информации влияют на контекстуальную приватность. ## Результаты Мы провели эксперименты с несколькими моделями LLMs, включая GPT-4o, и сравнили их с базовыми моделями, работающими на одном агенте. Результаты показали, что наша модель снимает примерно \textbf{18%} утечек конфиденциальной информации на наборе данных ConfAIde и \textbf{19%} на PrivacyLens. Эти результаты свидетельствуют о том, что наш подход существенно улучшает приватность, не ухудшая точность удержания общедоступной информации. Мы также провели анализ потока информации, чтобы понять, какие типы ошибок происходят в различных этапах обработки и как они могут повлиять друг на друга. Эти знания помогли нам оптимизировать систему и сделать ее более надежной в отношении контекстуальной приватности. ## Значимость Полученные результаты открывают новые возможности для применения LLMs в различных областях, где необходимо обеспечение контекстуальной приватности. Например, они могут быть использованы в системах управления конфиденциа

Abstract

Addressing contextual privacy concerns remains challenging in interactive settings where large language models (LLMs) process information from multiple sources (e.g., summarizing meetings with private and public information). We introduce a multi-agent framework that decomposes privacy reasoning into specialized subtasks (extraction, classification), reducing the information load on any single agent while enabling iterative validation and more reliable adherence to contextual privacy norms. To understand how privacy errors emerge and propagate, we conduct a systematic ablation over information-flow topologies, revealing when and why upstream detection mistakes cascade into downstream leakage. Experiments on the ConfAIde and PrivacyLens benchmark with several open-source and closed-sourced LLMs demonstrate that our best multi-agent configuration substantially reduces private information leakage (\textbf{18\%} on ConfAIde and \textbf{19\%} on PrivacyLens with GPT-4o) while preserving the fidelity of public content, outperforming single-agent baselines. These results highlight the promise of principled information-flow design in multi-agent systems for contextual privacy with LLMs.

Ссылки и действия