Searching for Privacy Risks in LLM Agents via Simulation
2508.10880v1
cs.CR, cs.AI, cs.CL
2025-08-16
Авторы:
Yanzhe Zhang, Diyi Yang
Резюме на русском
## Контекст
Современная Интернет-экономика сильно полагается на широковещательное развертывание генерирующих языковых моделей (LLM) в качестве агентов для обеспечения различных сервисов. Однако возникает критическая проблема: злоумышленники могут использовать LLM-агенты для проводить атаки, нацеленные на запрос и извлечение чувствительной информации в динамическом, многоразовом диалоге. Эти атаки могут привести к серьезным нарушениям конфиденциальности, но их сложная и эволюционная природа затрудняет ручной поиск этих уязвимостей. Для раскрытия этих возможностей и защиты от них требуются автоматизированные средства, которые могут эффективно моделировать и анализировать такие сценарии.
## Метод
Мы предлагаем поисковую фреймворк для анализа и отражения рисков конфиденциальности в LLM-агентах. Он основывается на симуляции взаимодействия между тремя ролями: **данные подлежащие защите**, **атакующий агент** и **защитный агент**. В каждом эксперименте данные подлежащие защите определяются, а атакующий агент пытается их извлечь, используя многотактные диалоги, в то время как защитный агент адаптируется для предотвращения этого. Мы используем генерирующие языковые модели для оптимизации этих ролей, определяя новые инструкции для каждой роли на каждом шаге. Этот подход позволяет проводить многопоточные поисковые процедуры с параллельным обслуживанием инструкций и использованием параллельной синхронизации. Это предлагается для быстрого и эффективного обнаружения рисков конфиденциальности.
## Результаты
Мы проводили эксперименты, в которых виртуальные агенты проводят диалоги от имени пользователя и стараются извлечь чувствительные данные. Мы используем данные из различных сценариев, включая персональные данные, финансовую информацию и личные предпочтения. Наши эксперименты показали, что атакующие стратегии развиваются от простых запросов к более сложным многотактным сценариям, таким как имитация и подделка согласия. Защитные стратегии также развивались, перемещаясь от простых правил до более сложных механизмов, таких как взаимодействие с удостоверениями. Наши результаты показали, что атаки и защиты, обнаруженные в одной среде, могут быть перенесены в другие, что демонстрирует их практическую значимость.
## Значимость
Результаты нашей работы имеют широкие применения в безопасности и конфиденциальности в Интернет-экономике. Наш подход может быть использован для тестирования безопасности в системах с LLM-агентами, для создания более безопасных диалоговых систем и для разработки но
Abstract
The widespread deployment of LLM-based agents is likely to introduce a
critical privacy threat: malicious agents that proactively engage others in
multi-turn interactions to extract sensitive information. These dynamic
dialogues enable adaptive attack strategies that can cause severe privacy
violations, yet their evolving nature makes it difficult to anticipate and
discover sophisticated vulnerabilities manually. To tackle this problem, we
present a search-based framework that alternates between improving attacker and
defender instructions by simulating privacy-critical agent interactions. Each
simulation involves three roles: data subject, data sender, and data recipient.
While the data subject's behavior is fixed, the attacker (data recipient)
attempts to extract sensitive information from the defender (data sender)
through persistent and interactive exchanges. To explore this interaction space
efficiently, our search algorithm employs LLMs as optimizers, using parallel
search with multiple threads and cross-thread propagation to analyze simulation
trajectories and iteratively propose new instructions. Through this process, we
find that attack strategies escalate from simple direct requests to
sophisticated multi-turn tactics such as impersonation and consent forgery,
while defenses advance from rule-based constraints to identity-verification
state machines. The discovered attacks and defenses transfer across diverse
scenarios and backbone models, demonstrating strong practical utility for
building privacy-aware agents.
Ссылки и действия
Дополнительные ресурсы: