Network-Level Prompt and Trait Leakage in Local Research Agents
2508.20282v1
cs.CR, cs.AI
2025-08-30
Авторы:
Hyejun Jeong, Mohammadreze Teymoorianfard, Abhinav Kumar, Amir Houmansadr, Eugene Badasarian
Резюме на русском
#### Контекст
Web и Research Agents (WRAs) — это модели языка, основанные на технологии глубокого обучения, которые анализируют сложные темы в сети Интернет. Они могут использоваться в различных сферах, включая организационные и индивидуальные нужды, где требуется конфиденциальность и защита данных. Тем не менее, WRAs могут быть уязвимы к атакам сетевых вторжений, которые могут выполняться пассивными адверсари, такими как провайдеры услуг доступа к сети. Эти атаки могут привести к утечке чувствительных данных, включая информацию о поведении пользователя. Известно, что WRAs могут стать целью таких атак, так как они выполняют многократные запросы к разным серверным ресурсам, что дает возможность различить их сетевые трассы. Эта ситуация является особенно актуальной в случае использования WRAs для скрытой информации или для защиты прав конфиденциальности пользователя.
#### Метод
Для исследования уязвимостей WRAs были применены методы, основанные на экспериментальном подходе. Был создан новый датасет, включающий сетевые трассы WRAs, образованные в результате поисковых запросов, а также запросов, сформированных синтетическими профилями. Для оценки схожести между исходными и восстановленными запросами была разработана метрика OBELS. Были проведены эксперименты для восстановления структуры запросов и характеристик пользователей. Атака проводилась в условиях многосессионного использования WRAs, чтобы оценить ее эффективность в разных сценариях. Особенностью метода является его устойчивость к помехам и частичности данных. Также были разработаны методы ограничения доменного разнообразия и маскировки сетевых трасс для снижения эффекта атаки.
#### Результаты
В ходе экспериментов было показано, что атака на WRAs позволяет восстановить практически 73% функционального и доменного знания, содержащегося в исходных запросах. Было получено, что средний уровень точности восстановления пользовательских характеристик составляет 19 из 32 характеристик. Эксперименты показали, что атака остается эффективной при условии частичности обслуживания и шумных условиях. Было также продемонстрировано, что ограничение доменного разнообразия и маскировка сетевых трасс способствуют снижению эффективности атаки, при этом оказывая незначительное влияние на полезность WRAs.
#### Значимость
Результаты исследования имеют значительное значение для развития систем WRAs, так как показывают возможность использования этих систем для защиты конфиденциальности пользователей. Это может быть применено в различных сферах, включа
Abstract
We show that Web and Research Agents (WRAs) -- language model-based systems
that investigate complex topics on the Internet -- are vulnerable to inference
attacks by passive network adversaries such as ISPs. These agents could be
deployed \emph{locally} by organizations and individuals for privacy, legal, or
financial purposes. Unlike sporadic web browsing by humans, WRAs visit
$70{-}140$ domains with distinguishable timing correlations, enabling unique
fingerprinting attacks.
Specifically, we demonstrate a novel prompt and user trait leakage attack
against WRAs that only leverages their network-level metadata (i.e., visited IP
addresses and their timings). We start by building a new dataset of WRA traces
based on user search queries and queries generated by synthetic personas. We
define a behavioral metric (called OBELS) to comprehensively assess similarity
between original and inferred prompts, showing that our attack recovers over
73\% of the functional and domain knowledge of user prompts. Extending to a
multi-session setting, we recover up to 19 of 32 latent traits with high
accuracy. Our attack remains effective under partial observability and noisy
conditions. Finally, we discuss mitigation strategies that constrain domain
diversity or obfuscate traces, showing negligible utility impact while reducing
attack effectiveness by an average of 29\%.
Ссылки и действия
Дополнительные ресурсы: