IPIGuard: A Novel Tool Dependency Graph-Based Defense Against Indirect Prompt Injection in LLM Agents
2508.15310v1
cs.CR, cs.AI, cs.CL
2025-08-23
Авторы:
Hengyu An, Jinghuai Zhang, Tianyu Du, Chunyi Zhou, Qingming Li, Tao Lin, Shouling Ji
Резюме на русском
Заголовок: IPIGuard: A Novel Tool Dependency Graph-Based Defense Against Indirect Prompt Injection in LLM Agents
## Контекст
Large language model (LLM) agents широко применяются в реальном мире, где они используют инструменты для получения и обработки внешних данных для выполнения сложных задач. Однако при работе с недоверенными источниками данных (например, сайтах в сети) ответы инструментов могут содержать внедренные инструкции, которые подтачивают поведение агента и приводят к вредоносным последствиям. Эта угроза называется Indirect Prompt Injection (IPI). Существующие методы защиты, такие как улучшенные стратегии подачи фраз или дополнительные модели детекции, основываются на предположениях о безопасности модели и не учитывают структурных ограничений на агентское поведение. Без таких ограничений агенты остаются подверженными более сильным атакам, которые могут обойти защитные механизмы. Чтобы защититься от внедренных инструкций на самом источнике, мы предлагаем новую защитную модель под названием IPIGuard.
## Метод
IPIGuard представляет собой защитную модель, которая представляет задачу выполнения агента в виде планирования динамического Tool Dependency Graph (TDG). Эта модель разделяет планирование действий от взаимодействия с внешними источниками данных. Каждый шаг выполнения представляет собой переход между узлами TDG, что позволяет контролировать и анализировать взаимодействие с инструментами на ранней стадии. Этот подход существенно сокращает нежелательные внешние вызовы, связанные с внедренными инструкциями, и улучшает устойчивость агентной системы к IPI-атакам. Наша архитектура гарантирует более структурированное поведение и значительно меньшую подверженность внешним угрозам.
## Результаты
Мы проверили эффективность IPIGuard на бенчмарке AgentDojo, где агенты должны решать задачи в динамических условиях. Наши результаты показали, что IPIGuard значительно снижает число нежелательных вызовов инструментов, вызванных внедренными инструкциями, при этом сохраняя высокую точность и быстрое выполнение задач. Эти результаты демонстрируют преимущество IPIGuard над существующими методами в терминах баланса между эффективностью и устойчивостью к атакам. Благодаря этому, IPIGuard может стать ключевым элементом в создании более надежных и безопасных агентских систем.
## Значимость
Предложенная модель имеет большое практическое значение в области применения LLM-агентов в реальном мире. Она может быть использована для защиты агентов от внедренных инструкций в различных сценариях, таких как системы поддержки клиентов, системы управления бизнес-процессами и системы рекомендаций. Благодаря структурированному подходу IPIGuard обеспечивает более
Abstract
Large language model (LLM) agents are widely deployed in real-world
applications, where they leverage tools to retrieve and manipulate external
data for complex tasks. However, when interacting with untrusted data sources
(e.g., fetching information from public websites), tool responses may contain
injected instructions that covertly influence agent behaviors and lead to
malicious outcomes, a threat referred to as Indirect Prompt Injection (IPI).
Existing defenses typically rely on advanced prompting strategies or auxiliary
detection models. While these methods have demonstrated some effectiveness,
they fundamentally rely on assumptions about the model's inherent security,
which lacks structural constraints on agent behaviors. As a result, agents
still retain unrestricted access to tool invocations, leaving them vulnerable
to stronger attack vectors that can bypass the security guardrails of the
model. To prevent malicious tool invocations at the source, we propose a novel
defensive task execution paradigm, called IPIGuard, which models the agents'
task execution process as a traversal over a planned Tool Dependency Graph
(TDG). By explicitly decoupling action planning from interaction with external
data, IPIGuard significantly reduces unintended tool invocations triggered by
injected instructions, thereby enhancing robustness against IPI attacks.
Experiments on the AgentDojo benchmark show that IPIGuard achieves a superior
balance between effectiveness and robustness, paving the way for the
development of safer agentic systems in dynamic environments.
Ссылки и действия
Дополнительные ресурсы: