Agentic JWT: A Secure Delegation Protocol for Autonomous AI Agents

2509.13597v1 cs.CR, cs.AI 2025-09-19
Авторы:

Abhishek Goswami

Резюме на русском

## Контекст В последние годы становится все более очевидным, что автономные генеративные модели языка (LLM) могут решать сложные задачи, активно взаимодействуя с внешними системами через API. Однако эти агенты могут быть подвержены различным угрозам безопасности, таким как расширение привилегий, реплей-атаки и имитация. Одним из ключевых проблемов является неопределенность в моделях авторизации для таких систем, так как они часто опираются на статические подходы, не предусматривающие динамические изменения в работе агентов. Эта неопределенность может привести к нежелательным последствиям, включая несанкционированный доступ и даже утечки данных. В этом контексте возникает потребность в безопасной системе авторизации, которая могла бы обеспечить отделение идентитета агента и управление его доступом в реальном времени. ## Метод Агентический JWT (A-JWT) предлагает инновационный подход к авторизации, основанный на двух основных функциях: 1. **Хеширование идентитета агента**: A-JWT использует one-way checksum hash, получаемый из предложения (prompt), инструментов и конфигурации агента. Это позволяет защититься от несанкционированного доступа и случайного изменения конфигурации. 2. **Делегирование задач**: A-JWT включает в себя связанные утверждения о делегировании, которые позволяют проверить, какой агент имеет право на запуск конкретного действия. Это обеспечивает цепочную ответственность и возможность контроля за действиями в цепочке делегирования. Кроме того, A-JWT включает в себя подписи под проверку принадлежности (proof-of-possession), чтобы предотвратить реплей-атаки и внутрипроцессную имитацию. Устройство работы новой системы авторизации подразумевает использование легковесного клиентского слоя, который может самостоятельно проверять код во время выполнения, минтеть токены с интентом, отслеживать этапы рабочего процесса и вычислять ключи подписи. ## Результаты Проведенные эксперименты показали эффективность A-JWT в блокировке различных типов атак, таких как расширение привилегий, реплей-атаки и имитация. Для этого использовались специально созданные тестовые сценарии, включающие в себя различные угрозы, среди которых были включены запуск несанкционированных API-вызовов, масштабное действие агентов и другие виды угроз безопасности. Эксперименты проводились на коммерческом оборудовании, и результаты показали, что A-JWT добивается существенного улучшения безопасности без значительного изменения производительности. В частности, был доказан функциональный блокирование запросов, нарушающих установленные

Abstract

Autonomous LLM agents can issue thousands of API calls per hour without human oversight. OAuth 2.0 assumes deterministic clients, but in agentic settings stochastic reasoning, prompt injection, or multi-agent orchestration can silently expand privileges. We introduce Agentic JWT (A-JWT), a dual-faceted intent token that binds each agent's action to verifiable user intent and, optionally, to a specific workflow step. A-JWT carries an agent's identity as a one-way checksum hash derived from its prompt, tools and configuration, and a chained delegation assertion to prove which downstream agent may execute a given task, and per-agent proof-of-possession keys to prevent replay and in-process impersonation. We define a new authorization mechanism and add a lightweight client shim library that self-verifies code at run time, mints intent tokens, tracks workflow steps and derives keys, thus enabling secure agent identity and separation even within a single process. We illustrate a comprehensive threat model for agentic applications, implement a Python proof-of-concept and show functional blocking of scope-violating requests, replay, impersonation, and prompt-injection pathways with sub-millisecond overhead on commodity hardware. The design aligns with ongoing OAuth agent discussions and offers a drop-in path toward zero-trust guarantees for agentic applications. A comprehensive performance and security evaluation with experimental results will appear in our forthcoming journal publication

Ссылки и действия