Incident Analysis for AI Agents

2508.14231v1 cs.CY, cs.AI 2025-08-22

Авторы:

Carson Ezell, Xavier Roberts-Gaal, Alan Chan

Резюме на русском

## Контекст Современное развитие искусственного интеллекта приводит к появлению высококачественных агентов, которые могут выполнять технически сложные или рутинные задачи. Однако с каждым новым агентом возрастает вероятность возникновения инцидентов — ситуаций, в которых агент не только не выполняет свои функции, но и причиняет вред. Например, агент может быть обойден (prompt-injected) и принудительно исполнить команды, приводящие к утечке личных данных или несанкционированным покупкам. Такие инциденты могут привести к материальным потерям, ущербу репутации и даже нанести здоровью людей. Структурированная информация об инцидентах, включая содержимое пользовательских запросов и внутренние системные данные, может помочь раскрыть причины и предотвратить повторение подобных ситуаций. Однако существующие методы по работе с инцидентами ограничиваются публично доступной информацией, лишаясь важной аналитической информации, такой как цепочка мыслей агента или браузерная история. Данная статья предлагает фреймворк для анализа инцидентов с целью улучшить понимание их причин и профилактики. ## Метод Фреймворк анализа инцидентов основывается на подходах системной безопасности и разделяет причины инцидентов на три категории: системные, контекстуальные и когнитивные. **Системные факторы** включают в себя данные, с которыми агент взаимодействует, например, обучающиеся данные, тренировочные сценарии и другие внутренние артефакты. **Контекстуальные факторы** относятся к ситуациям, в которых агент может быть подвергнут внешним воздействиям, например, принудительной модификации ввода пользователя (prompt injection). **Когнитивные факторы** относятся к непонятным или некорректному пониманию запросов пользователя, что может привести к ошибкам. Для детального анализа инцидентов предлагается использовать такие источники информации, как журналы активности, документация системы и доступ к инструментам, используемым агентом. Рекомендации относятся как к формату и содержанию отчетов об инцидентах, так и к механизмам обеспечения доступа исследователям к необходимым данным. ## Результаты Авторы провели анализ существующих инцидентов с применением фреймворка, выделив типичные причины и детализируя примеры инцидентов. Для экспериментов использовались симуляции системных сценариев и моделирование различных ситуаций, в которых агенты могли быть обойдены или совершить ошибки. Анализ показал, что системные факторы являются наиболее частыми причинами инцидентов, особенно когда агенты обучаются на ограниченных данных или и

Abstract

As AI agents become more widely deployed, we are likely to see an increasing number of incidents: events involving AI agent use that directly or indirectly cause harm. For example, agents could be prompt-injected to exfiltrate private information or make unauthorized purchases. Structured information about such incidents (e.g., user prompts) can help us understand their causes and prevent future occurrences. However, existing incident reporting processes are not sufficient for understanding agent incidents. In particular, such processes are largely based on publicly available data, which excludes useful, but potentially sensitive, information such as an agent's chain of thought or browser history. To inform the development of new, emerging incident reporting processes, we propose an incident analysis framework for agents. Drawing on systems safety approaches, our framework proposes three types of factors that can cause incidents: system-related (e.g., CBRN training data), contextual (e.g., prompt injections), and cognitive (e.g., misunderstanding a user request). We also identify specific information that could help clarify which factors are relevant to a given incident: activity logs, system documentation and access, and information about the tools an agent uses. We provide recommendations for 1) what information incident reports should include and 2) what information developers and deployers should retain and make available to incident investigators upon request. As we transition to a world with more agents, understanding agent incidents will become increasingly crucial for managing risks.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Incident Analysis for AI Agents

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Humanity in the Age of AI: Reassessing 2025's Existential-Risk Narratives

When AI Takes the Couch: Psychometric Jailbreaks Reveal Internal Conflict in Fro...

Artificial Intelligence / Human Intelligence: Who Controls Whom?

First, do NOHARM: towards clinically safe large language models

AI-Driven Document Redaction in UK Public Authorities: Implementation Gaps, Regu...

Навигация