Searching for Privacy Risks in LLM Agents via Simulation

2508.10880v1 cs.CR, cs.AI, cs.CL 2025-08-16
Авторы:

Yanzhe Zhang, Diyi Yang

Резюме на русском

## Контекст Современная Интернет-экономика сильно полагается на широковещательное развертывание генерирующих языковых моделей (LLM) в качестве агентов для обеспечения различных сервисов. Однако возникает критическая проблема: злоумышленники могут использовать LLM-агенты для проводить атаки, нацеленные на запрос и извлечение чувствительной информации в динамическом, многоразовом диалоге. Эти атаки могут привести к серьезным нарушениям конфиденциальности, но их сложная и эволюционная природа затрудняет ручной поиск этих уязвимостей. Для раскрытия этих возможностей и защиты от них требуются автоматизированные средства, которые могут эффективно моделировать и анализировать такие сценарии. ## Метод Мы предлагаем поисковую фреймворк для анализа и отражения рисков конфиденциальности в LLM-агентах. Он основывается на симуляции взаимодействия между тремя ролями: **данные подлежащие защите**, **атакующий агент** и **защитный агент**. В каждом эксперименте данные подлежащие защите определяются, а атакующий агент пытается их извлечь, используя многотактные диалоги, в то время как защитный агент адаптируется для предотвращения этого. Мы используем генерирующие языковые модели для оптимизации этих ролей, определяя новые инструкции для каждой роли на каждом шаге. Этот подход позволяет проводить многопоточные поисковые процедуры с параллельным обслуживанием инструкций и использованием параллельной синхронизации. Это предлагается для быстрого и эффективного обнаружения рисков конфиденциальности. ## Результаты Мы проводили эксперименты, в которых виртуальные агенты проводят диалоги от имени пользователя и стараются извлечь чувствительные данные. Мы используем данные из различных сценариев, включая персональные данные, финансовую информацию и личные предпочтения. Наши эксперименты показали, что атакующие стратегии развиваются от простых запросов к более сложным многотактным сценариям, таким как имитация и подделка согласия. Защитные стратегии также развивались, перемещаясь от простых правил до более сложных механизмов, таких как взаимодействие с удостоверениями. Наши результаты показали, что атаки и защиты, обнаруженные в одной среде, могут быть перенесены в другие, что демонстрирует их практическую значимость. ## Значимость Результаты нашей работы имеют широкие применения в безопасности и конфиденциальности в Интернет-экономике. Наш подход может быть использован для тестирования безопасности в системах с LLM-агентами, для создания более безопасных диалоговых систем и для разработки но

Abstract

The widespread deployment of LLM-based agents is likely to introduce a critical privacy threat: malicious agents that proactively engage others in multi-turn interactions to extract sensitive information. These dynamic dialogues enable adaptive attack strategies that can cause severe privacy violations, yet their evolving nature makes it difficult to anticipate and discover sophisticated vulnerabilities manually. To tackle this problem, we present a search-based framework that alternates between improving attacker and defender instructions by simulating privacy-critical agent interactions. Each simulation involves three roles: data subject, data sender, and data recipient. While the data subject's behavior is fixed, the attacker (data recipient) attempts to extract sensitive information from the defender (data sender) through persistent and interactive exchanges. To explore this interaction space efficiently, our search algorithm employs LLMs as optimizers, using parallel search with multiple threads and cross-thread propagation to analyze simulation trajectories and iteratively propose new instructions. Through this process, we find that attack strategies escalate from simple direct requests to sophisticated multi-turn tactics such as impersonation and consent forgery, while defenses advance from rule-based constraints to identity-verification state machines. The discovered attacks and defenses transfer across diverse scenarios and backbone models, demonstrating strong practical utility for building privacy-aware agents.

Ссылки и действия