Network-Level Prompt and Trait Leakage in Local Research Agents

2508.20282v1 cs.CR, cs.AI 2025-08-30
Авторы:

Hyejun Jeong, Mohammadreze Teymoorianfard, Abhinav Kumar, Amir Houmansadr, Eugene Badasarian

Резюме на русском

#### Контекст Web и Research Agents (WRAs) — это модели языка, основанные на технологии глубокого обучения, которые анализируют сложные темы в сети Интернет. Они могут использоваться в различных сферах, включая организационные и индивидуальные нужды, где требуется конфиденциальность и защита данных. Тем не менее, WRAs могут быть уязвимы к атакам сетевых вторжений, которые могут выполняться пассивными адверсари, такими как провайдеры услуг доступа к сети. Эти атаки могут привести к утечке чувствительных данных, включая информацию о поведении пользователя. Известно, что WRAs могут стать целью таких атак, так как они выполняют многократные запросы к разным серверным ресурсам, что дает возможность различить их сетевые трассы. Эта ситуация является особенно актуальной в случае использования WRAs для скрытой информации или для защиты прав конфиденциальности пользователя. #### Метод Для исследования уязвимостей WRAs были применены методы, основанные на экспериментальном подходе. Был создан новый датасет, включающий сетевые трассы WRAs, образованные в результате поисковых запросов, а также запросов, сформированных синтетическими профилями. Для оценки схожести между исходными и восстановленными запросами была разработана метрика OBELS. Были проведены эксперименты для восстановления структуры запросов и характеристик пользователей. Атака проводилась в условиях многосессионного использования WRAs, чтобы оценить ее эффективность в разных сценариях. Особенностью метода является его устойчивость к помехам и частичности данных. Также были разработаны методы ограничения доменного разнообразия и маскировки сетевых трасс для снижения эффекта атаки. #### Результаты В ходе экспериментов было показано, что атака на WRAs позволяет восстановить практически 73% функционального и доменного знания, содержащегося в исходных запросах. Было получено, что средний уровень точности восстановления пользовательских характеристик составляет 19 из 32 характеристик. Эксперименты показали, что атака остается эффективной при условии частичности обслуживания и шумных условиях. Было также продемонстрировано, что ограничение доменного разнообразия и маскировка сетевых трасс способствуют снижению эффективности атаки, при этом оказывая незначительное влияние на полезность WRAs. #### Значимость Результаты исследования имеют значительное значение для развития систем WRAs, так как показывают возможность использования этих систем для защиты конфиденциальности пользователей. Это может быть применено в различных сферах, включа

Abstract

We show that Web and Research Agents (WRAs) -- language model-based systems that investigate complex topics on the Internet -- are vulnerable to inference attacks by passive network adversaries such as ISPs. These agents could be deployed \emph{locally} by organizations and individuals for privacy, legal, or financial purposes. Unlike sporadic web browsing by humans, WRAs visit $70{-}140$ domains with distinguishable timing correlations, enabling unique fingerprinting attacks. Specifically, we demonstrate a novel prompt and user trait leakage attack against WRAs that only leverages their network-level metadata (i.e., visited IP addresses and their timings). We start by building a new dataset of WRA traces based on user search queries and queries generated by synthetic personas. We define a behavioral metric (called OBELS) to comprehensively assess similarity between original and inferred prompts, showing that our attack recovers over 73\% of the functional and domain knowledge of user prompts. Extending to a multi-session setting, we recover up to 19 of 32 latent traits with high accuracy. Our attack remains effective under partial observability and noisy conditions. Finally, we discuss mitigation strategies that constrain domain diversity or obfuscate traces, showing negligible utility impact while reducing attack effectiveness by an average of 29\%.

Ссылки и действия