The Sum Leaks More Than Its Parts: Compositional Privacy Risks and Mitigations in Multi-Agent Collaboration
2509.14284v1
cs.CR, cs.AI, cs.CL
2025-09-20
Авторы:
Vaidehi Patil, Elias Stengel-Eskin, Mohit Bansal
Резюме на русском
## Контекст
Становятся все более реалистичными ситуации, когда большие языковые модели (LLMs) применяются в качестве членов многоагентных систем, где они обмениваются данными и совместно выполняют задачи. Это свойство открывает новые возможности, но при этом создает риски для конфиденциальности, которые могут быть недооценены в обычных оценках производительности. Например, отдельные ответы моделей могут быть безопасными, но композиция ответов в ходе многошаговых взаимодействий может позволить злоумышленнику восстановить конфиденциальные данные. Это возникающее явление, называемое **"композиционным утечкой приватности"**, требует новых подходов к защите конфиденциальности в таких системах. Необходимо понять, как сложные взаимодействия между агентами могут привести к такой утечке, и разработать эффективные способы ее предотвращения.
## Метод
Разработана архитектура, включающая два новых подхода к защите конфиденциальности в многоагентных системах с LLMs. **Theory-of-Mind defense (ToM)** предполагает, что агенты анализируют мотивы вопрошающего и могут предсказать, как их ответ может быть использован в пользу злоумышленника. **Collaborative Consensus Defense (CoDef)** предполагает, что несколько агентов совместно принимают решения, ограничивая раскрытие конфиденциальных данных. Основной идеей является то, чтобы сбалансировать защиту приватности и целесообразность выполнения задачи. Для оценки этих гипотез использованы синтетические тестовые наборы, в которых эксперименты показывают, насколько эффективно эти методы блокируют композиционные утечки и сохраняют качество выполнения задач.
## Результаты
В ходе экспериментов сравнивались эффективность двух подходов: **ToM** и **CoDef**. Обнаружено, что **ToM** эффективно блокирует утечки приватности в контексте композиционных запросов, но может снижать качество решения задач в более простых случаях. **CoDef**, в свою очередь, достигает более гармоничного баланса между защитой и качеством выполнения задач, показывая более высокий баланс обоих показателей (79.8%) в сравнении с другими подходами. Эти результаты подтверждают, что **CoDef** дает наилучший результат при сбалансированной защите и продуктивности.
## Значимость
Выявленный подход к защите приватности является релевантным для многоагентных систем, где LLMs применяются в различных приложениях, включая системы управления, медицинские системы и системы управления ИИ. Разработанные методы могут быть применены для защиты конфиденциальных данных в контекстах, где композиция ответов может привести к риску утечки. Этот подход также
Abstract
As large language models (LLMs) become integral to multi-agent systems, new
privacy risks emerge that extend beyond memorization, direct inference, or
single-turn evaluations. In particular, seemingly innocuous responses, when
composed across interactions, can cumulatively enable adversaries to recover
sensitive information, a phenomenon we term compositional privacy leakage. We
present the first systematic study of such compositional privacy leaks and
possible mitigation methods in multi-agent LLM systems. First, we develop a
framework that models how auxiliary knowledge and agent interactions jointly
amplify privacy risks, even when each response is benign in isolation. Next, to
mitigate this, we propose and evaluate two defense strategies: (1)
Theory-of-Mind defense (ToM), where defender agents infer a questioner's intent
by anticipating how their outputs may be exploited by adversaries, and (2)
Collaborative Consensus Defense (CoDef), where responder agents collaborate
with peers who vote based on a shared aggregated state to restrict sensitive
information spread. Crucially, we balance our evaluation across compositions
that expose sensitive information and compositions that yield benign
inferences. Our experiments quantify how these defense strategies differ in
balancing the privacy-utility trade-off. We find that while chain-of-thought
alone offers limited protection to leakage (~39% sensitive blocking rate), our
ToM defense substantially improves sensitive query blocking (up to 97%) but can
reduce benign task success. CoDef achieves the best balance, yielding the
highest Balanced Outcome (79.8%), highlighting the benefit of combining
explicit reasoning with defender collaboration. Together, our results expose a
new class of risks in collaborative LLM deployments and provide actionable
insights for designing safeguards against compositional, context-driven privacy
leakage.
Ссылки и действия
Дополнительные ресурсы: