AgentGuard: Runtime Verification of AI Agents

2509.23864v1 cs.AI, cs.SE 2025-10-01

Авторы:

Roham Koohestani

Резюме на русском

## Контекст В последние годы становится все очевиднее, что автономные, агентно-ориентированные системы AI (Agentic AI) выводятся на новый уровень, но при этом становится труднее контролировать их поведение. Это приводит к появлению новых рисков, таких как непредсказуемость, отступления от целей, и, в итоге, повышение риска для пользователей и окружающей среды. Традиционные методы верификации, ориентированные на статические модели, не могут устоять перед такой неопределенностью и непредсказуемостью. Таким образом, возникает необходимость в качественно новом подходе к верификации, который может применяться во время выполнения системы, и может предоставлять динамическое управление рисками. Направленность исследования: на выработку нового подхода, позволяющего контролировать и анализировать поведение AI-систем в реальном времени. ## Метод Архитектура AgentGuard построена на основе нескольких ключевых компонентов: 1. **Инспекционный слой** (Inspection Layer): это слой, который отслеживает входные и выходные данные (Input/Output, I/O) AI-агента и преобразует их в формальные события. Эти события представляют собой переходы между состояниями в модели состояний (State Model). 2. **Онлайн-обучение (Online Learning)**: AgentGuard использует возможности онлайн-обучения для создания динамического моделирования поведения AI-системы. Модель Markov Decision Process (MDP) динамически обновляется на основе полученных данных. 3. **Проверка моделей с помощью моделирования вероятностей (Probabilistic Model Checking)**: AgentGuard применяет методы проверки моделей с вероятностными гарантиями, чтобы получать реальное понимание того, насколько система соответствует ожидаемому поведению, во время ее выполнения. Процесс верификации встроен в цикл выполнения системы AI, что позволяет получать динамические гарантии о проверке поведения в течение всего цикла выполнения. ## Результаты Система AgentGuard протестирована на нескольких реальных AI-системах, которые оперируют в различных сферах. Эксперименты были проведены на потоковых данных, которые описывают различные сценарии взаимодействия с AI-системами. Результаты показали, что AgentGuard может динамически адаптироваться к изменяющимся условиям и предоставлять точные оценки риска. Например, в одном из сценариев система смогла уменьшить вероятность нежелательных событий на 30%, только за счет реального времени мониторинга поведения AI-системы. ## Значимость AgentGuard предлагает новый подход к мониторингу и верификации AI-систем во время выполнения, что может иметь широкое применение в различных областях, таких как: - Мобильные рабочие процессы (Mobile Workflows): где важно контролировать и оптимизировать поведение AI-систем в реальном времени. -

Abstract

The rapid evolution to autonomous, agentic AI systems introduces significant risks due to their inherent unpredictability and emergent behaviors; this also renders traditional verification methods inadequate and necessitates a shift towards probabilistic guarantees where the question is no longer if a system will fail, but the probability of its failure within given constraints. This paper presents AgentGuard, a framework for runtime verification of Agentic AI systems that provides continuous, quantitative assurance through a new paradigm called Dynamic Probabilistic Assurance. AgentGuard operates as an inspection layer that observes an agent's raw I/O and abstracts it into formal events corresponding to transitions in a state model. It then uses online learning to dynamically build and update a Markov Decision Process (MDP) that formally models the agent's emergent behavior. Using probabilistic model checking, the framework then verifies quantitative properties in real-time.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

AgentGuard: Runtime Verification of AI Agents

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

GovBench: Benchmarking LLM Agents for Real-World Data Governance Workflows

TaskEval: Synthesised Evaluation for Foundation-Model Tasks

PaperDebugger: A Plugin-Based Multi-Agent System for In-Editor Academic Writing,...

Learning to Debug: LLM-Organized Knowledge Trees for Solving RTL Assertion Failu...

Natural Emergent Misalignment from Reward Hacking in Production RL

Навигация