Architecting Resilient LLM Agents: A Guide to Secure Plan-then-Execute Implementations
2509.08646v1
cs.CR, cs.AI, cs.SY, eess.SY
2025-09-12
Авторы:
Ron F. Del Rosario, Klaudia Krawiecka, Christian Schroeder de Witt
Резюме на русском
## Контекст
В последние годы искусственный интеллект (ИИ) стал одной из самых востребованных технологий, вносящих значительные вклады в развитие различных отраслей. Одним из наиболее заметных направлений является развитие говорящих моделей, таких как Large Language Models (LLM). Эти модели позволяют автоматизировать сложные, многошаговые задачи, но при этом создают новые проблемы в области безопасности и надежности.
Одна из самых острых проблем в развитии LLM-агентов — это их уязвимость к атакам, таким как indirect prompt injection (IPI). Эти атаки могут привести к нежелательным последствиям, включая потерю контроля над агентом и даже утечку конфиденциальных данных. Поэтому, требуется разработка безопасных, надежных и прозрачных архитектур, которые могут стать основой для развития LLM-агентов.
В этом контексте появляется идея Plan-then-Execute (P-t-E), которая предлагает разделить процессы планирования и исполнения задач. Этот подход может стать решением для некоторых проблем, связанных с безопасностью и надёжностью LLM-агентов.
## Метод
В центре данного исследования лежит Plan-then-Execute (P-t-E) — архитектурный подход, который разделяет стратегическое планирование от технического исполнения. Этот метод позволяет повысить прозрачность и надёжность агента, так как каждое из этих процессов может быть отдельно проанализировано и подкорректировано.
Работа агента основывается на двух основных компонентах: **Planner** и **Executor**. **Planner** отвечает за стратегическое планирование задач, а **Executor** — за их исполнение. Это разделение не только повышает прозрачность, но и позволяет лучше контролировать взаимодействие с системными ресурсами.
Для реализации P-t-E была разработана специальная архитектура, в которой используются технологии, такие как stateful graphs (для поддержки перепланирования) и sandboxing-технологии (для защиты от внешних атак). Этот подход позволяет улучшить качество решений и защитить систему от потенциальных угроз.
## Результаты
Для проверки эффективности P-t-E были проведены несколько экспериментов с использованием различных LLM-агентов. В ходе этих экспериментов было показано, что P-t-E предоставляет значительные преимущества по сравнению с другими архитектурами, такими как ReAct (Reason + Act).
В частности, P-t-E позволил повысить качество решений, снизить затраты на вычисления и обеспечить более высокую надёжность. Одним из ключевых результатов является устойчивость P-t-E к indirect prompt injection атакам, которые являются одной из самых опасных угроз для LLM-агентов.
## Значимость
Результаты исследований показывают, что P-t-E может быть применено в различных областях, где требуется надеж
Abstract
As Large Language Model (LLM) agents become increasingly capable of
automating complex, multi-step tasks, the need for robust, secure, and
predictable architectural patterns is paramount. This paper provides a
comprehensive guide to the ``Plan-then-Execute'' (P-t-E) pattern, an agentic
design that separates strategic planning from tactical execution. We explore
the foundational principles of P-t-E, detailing its core components - the
Planner and the Executor - and its architectural advantages in predictability,
cost-efficiency, and reasoning quality over reactive patterns like ReAct
(Reason + Act). A central focus is placed on the security implications of this
design, particularly its inherent resilience to indirect prompt injection
attacks by establishing control-flow integrity. We argue that while P-t-E
provides a strong foundation, a defense-in-depth strategy is necessary, and we
detail essential complementary controls such as the Principle of Least
Privilege, task-scoped tool access, and sandboxed code execution. To make these
principles actionable, this guide provides detailed implementation blueprints
and working code references for three leading agentic frameworks: LangChain
(via LangGraph), CrewAI, and AutoGen. Each framework's approach to implementing
the P-t-E pattern is analyzed, highlighting unique features like LangGraph's
stateful graphs for re-planning, CrewAI's declarative tool scoping for
security, and AutoGen's built-in Docker sandboxing. Finally, we discuss
advanced patterns, including dynamic re-planning loops, parallel execution with
Directed Acyclic Graphs (DAGs), and the critical role of Human-in-the-Loop
(HITL) verification, to offer a complete strategic blueprint for architects,
developers, and security engineers aiming to build production-grade, resilient,
and trustworthy LLM agents.