Architecting Resilient LLM Agents: A Guide to Secure Plan-then-Execute Implementations

2509.08646v1 cs.CR, cs.AI, cs.SY, eess.SY 2025-09-12

Авторы:

Ron F. Del Rosario, Klaudia Krawiecka, Christian Schroeder de Witt

Резюме на русском

## Контекст В последние годы искусственный интеллект (ИИ) стал одной из самых востребованных технологий, вносящих значительные вклады в развитие различных отраслей. Одним из наиболее заметных направлений является развитие говорящих моделей, таких как Large Language Models (LLM). Эти модели позволяют автоматизировать сложные, многошаговые задачи, но при этом создают новые проблемы в области безопасности и надежности. Одна из самых острых проблем в развитии LLM-агентов — это их уязвимость к атакам, таким как indirect prompt injection (IPI). Эти атаки могут привести к нежелательным последствиям, включая потерю контроля над агентом и даже утечку конфиденциальных данных. Поэтому, требуется разработка безопасных, надежных и прозрачных архитектур, которые могут стать основой для развития LLM-агентов. В этом контексте появляется идея Plan-then-Execute (P-t-E), которая предлагает разделить процессы планирования и исполнения задач. Этот подход может стать решением для некоторых проблем, связанных с безопасностью и надёжностью LLM-агентов. ## Метод В центре данного исследования лежит Plan-then-Execute (P-t-E) — архитектурный подход, который разделяет стратегическое планирование от технического исполнения. Этот метод позволяет повысить прозрачность и надёжность агента, так как каждое из этих процессов может быть отдельно проанализировано и подкорректировано. Работа агента основывается на двух основных компонентах: **Planner** и **Executor**. **Planner** отвечает за стратегическое планирование задач, а **Executor** — за их исполнение. Это разделение не только повышает прозрачность, но и позволяет лучше контролировать взаимодействие с системными ресурсами. Для реализации P-t-E была разработана специальная архитектура, в которой используются технологии, такие как stateful graphs (для поддержки перепланирования) и sandboxing-технологии (для защиты от внешних атак). Этот подход позволяет улучшить качество решений и защитить систему от потенциальных угроз. ## Результаты Для проверки эффективности P-t-E были проведены несколько экспериментов с использованием различных LLM-агентов. В ходе этих экспериментов было показано, что P-t-E предоставляет значительные преимущества по сравнению с другими архитектурами, такими как ReAct (Reason + Act). В частности, P-t-E позволил повысить качество решений, снизить затраты на вычисления и обеспечить более высокую надёжность. Одним из ключевых результатов является устойчивость P-t-E к indirect prompt injection атакам, которые являются одной из самых опасных угроз для LLM-агентов. ## Значимость Результаты исследований показывают, что P-t-E может быть применено в различных областях, где требуется надеж

Abstract

As Large Language Model (LLM) agents become increasingly capable of automating complex, multi-step tasks, the need for robust, secure, and predictable architectural patterns is paramount. This paper provides a comprehensive guide to the ``Plan-then-Execute'' (P-t-E) pattern, an agentic design that separates strategic planning from tactical execution. We explore the foundational principles of P-t-E, detailing its core components - the Planner and the Executor - and its architectural advantages in predictability, cost-efficiency, and reasoning quality over reactive patterns like ReAct (Reason + Act). A central focus is placed on the security implications of this design, particularly its inherent resilience to indirect prompt injection attacks by establishing control-flow integrity. We argue that while P-t-E provides a strong foundation, a defense-in-depth strategy is necessary, and we detail essential complementary controls such as the Principle of Least Privilege, task-scoped tool access, and sandboxed code execution. To make these principles actionable, this guide provides detailed implementation blueprints and working code references for three leading agentic frameworks: LangChain (via LangGraph), CrewAI, and AutoGen. Each framework's approach to implementing the P-t-E pattern is analyzed, highlighting unique features like LangGraph's stateful graphs for re-planning, CrewAI's declarative tool scoping for security, and AutoGen's built-in Docker sandboxing. Finally, we discuss advanced patterns, including dynamic re-planning loops, parallel execution with Directed Acyclic Graphs (DAGs), and the critical role of Human-in-the-Loop (HITL) verification, to offer a complete strategic blueprint for architects, developers, and security engineers aiming to build production-grade, resilient, and trustworthy LLM agents.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Резюме на русском

Abstract

Ссылки и действия

Навигация