Sentinel Agents for Secure and Trustworthy Agentic AI in Multi-Agent Systems

2509.14956v1 cs.AI, cs.MA 2025-09-20
Авторы:

Diego Gosmar, Deborah A. Dahl

Резюме на русском

#### Контекст Многоагентные системы (MAS) представляют собой системы, в которых несколько автономных агентов сотрудничают для достижения целей, часто в сложных и динамически изменяющихся средах. Несмотря на их потенциал, MAS чувствительны к различным угрозам, таким как обманные запросы (prompt injection), коллаборативные атаки, генерирование ложных данных (hallucinations) и нарушения конфиденциальности. Такие угрозы могут привести к негативным последствиям, включая потерю конфиденциальности, утечку данных и небезопасное поведение агентов. Необходимость в безопасности и доверии в MAS делает ключевыми задачи, такие как мониторинг и анализ поведения агентов, определение аномалий и принятие мер по изоляции рисков. #### Метод Основой фреймворка является Sentinel Agents, распределенная система мониторинга, которая включает в себя несколько компонентов. Эти агенты используют техники, такие как семантический анализ с помощью бо LLM, бихевиоральный анализ, верификация с использованием обнаружения контекста (retrieval-augmented verification) и сравнительный анализ (cross-agent anomaly detection). Sentinel Agents могут отслеживать интерагентные коммуникации, определять потенциальные угрозы, применять контроли доступа и поддерживать регистры аудита. Особенностью фреймворка является Coordinator Agent, который управляет политиками, управляет участием агентов и обрабатывает сигналы от Sentinel Agents. Coordinator Agent может адаптировать политики, изолировать небрежно действующие агентов и содержать угрозы, поддерживая целостность MAS. Данная двухуровневая модель обеспечивает динамические и адаптивные механизмы защиты. #### Результаты Мы провели эксперименты с использованием синтетических атак, включая prompt injection, hallucination и высвобождение данных. Sentinel Agents успешно обнаружили все попытки атаки, подтвердив эффективность их методов. Была проанализирована их способность отслеживать интерагентные коммуникации, определять аномалии и применять адаптивные меры защиты. Также мы проинспектировали то, как Coordinator Agent может адаптировать политики и содержать угрозы, что демонстрирует его важность в обеспечении целостности и надежности MAS. #### Значимость Предложенный фреймворк может быть применен в различных областях, таких как цифровые экосистемы, системы управления, живые сервисы и экономические системы. Он обеспечивает не только мониторинг и защиту, но также поддерживает выполнение политик, обеспечивает высокую степень наблюдаемости и поддерживает эволюцию политик в ходе использования. Этот фреймворк позволяет улучшить безопасность, доверие и надежность MAS, делая его привлекательным для решения реальных задач в сложных средах. #### Выводы Мы представили Sentinel Agents, распределенную модель за

Abstract

This paper proposes a novel architectural framework aimed at enhancing security and reliability in multi-agent systems (MAS). A central component of this framework is a network of Sentinel Agents, functioning as a distributed security layer that integrates techniques such as semantic analysis via large language models (LLMs), behavioral analytics, retrieval-augmented verification, and cross-agent anomaly detection. Such agents can potentially oversee inter-agent communications, identify potential threats, enforce privacy and access controls, and maintain comprehensive audit records. Complementary to the idea of Sentinel Agents is the use of a Coordinator Agent. The Coordinator Agent supervises policy implementation, and manages agent participation. In addition, the Coordinator also ingests alerts from Sentinel Agents. Based on these alerts, it can adapt policies, isolate or quarantine misbehaving agents, and contain threats to maintain the integrity of the MAS ecosystem. This dual-layered security approach, combining the continuous monitoring of Sentinel Agents with the governance functions of Coordinator Agents, supports dynamic and adaptive defense mechanisms against a range of threats, including prompt injection, collusive agent behavior, hallucinations generated by LLMs, privacy breaches, and coordinated multi-agent attacks. In addition to the architectural design, we present a simulation study where 162 synthetic attacks of different families (prompt injection, hallucination, and data exfiltration) were injected into a multi-agent conversational environment. The Sentinel Agents successfully detected the attack attempts, confirming the practical feasibility of the proposed monitoring approach. The framework also offers enhanced system observability, supports regulatory compliance, and enables policy evolution over time.

Ссылки и действия