Incident Analysis for AI Agents
2508.14231v1
cs.CY, cs.AI
2025-08-22
Авторы:
Carson Ezell, Xavier Roberts-Gaal, Alan Chan
Резюме на русском
## Контекст
Современное развитие искусственного интеллекта приводит к появлению высококачественных агентов, которые могут выполнять технически сложные или рутинные задачи. Однако с каждым новым агентом возрастает вероятность возникновения инцидентов — ситуаций, в которых агент не только не выполняет свои функции, но и причиняет вред. Например, агент может быть обойден (prompt-injected) и принудительно исполнить команды, приводящие к утечке личных данных или несанкционированным покупкам. Такие инциденты могут привести к материальным потерям, ущербу репутации и даже нанести здоровью людей. Структурированная информация об инцидентах, включая содержимое пользовательских запросов и внутренние системные данные, может помочь раскрыть причины и предотвратить повторение подобных ситуаций. Однако существующие методы по работе с инцидентами ограничиваются публично доступной информацией, лишаясь важной аналитической информации, такой как цепочка мыслей агента или браузерная история. Данная статья предлагает фреймворк для анализа инцидентов с целью улучшить понимание их причин и профилактики.
## Метод
Фреймворк анализа инцидентов основывается на подходах системной безопасности и разделяет причины инцидентов на три категории: системные, контекстуальные и когнитивные. **Системные факторы** включают в себя данные, с которыми агент взаимодействует, например, обучающиеся данные, тренировочные сценарии и другие внутренние артефакты. **Контекстуальные факторы** относятся к ситуациям, в которых агент может быть подвергнут внешним воздействиям, например, принудительной модификации ввода пользователя (prompt injection). **Когнитивные факторы** относятся к непонятным или некорректному пониманию запросов пользователя, что может привести к ошибкам. Для детального анализа инцидентов предлагается использовать такие источники информации, как журналы активности, документация системы и доступ к инструментам, используемым агентом. Рекомендации относятся как к формату и содержанию отчетов об инцидентах, так и к механизмам обеспечения доступа исследователям к необходимым данным.
## Результаты
Авторы провели анализ существующих инцидентов с применением фреймворка, выделив типичные причины и детализируя примеры инцидентов. Для экспериментов использовались симуляции системных сценариев и моделирование различных ситуаций, в которых агенты могли быть обойдены или совершить ошибки. Анализ показал, что системные факторы являются наиболее частыми причинами инцидентов, особенно когда агенты обучаются на ограниченных данных или и
Abstract
As AI agents become more widely deployed, we are likely to see an increasing
number of incidents: events involving AI agent use that directly or indirectly
cause harm. For example, agents could be prompt-injected to exfiltrate private
information or make unauthorized purchases. Structured information about such
incidents (e.g., user prompts) can help us understand their causes and prevent
future occurrences. However, existing incident reporting processes are not
sufficient for understanding agent incidents. In particular, such processes are
largely based on publicly available data, which excludes useful, but
potentially sensitive, information such as an agent's chain of thought or
browser history. To inform the development of new, emerging incident reporting
processes, we propose an incident analysis framework for agents. Drawing on
systems safety approaches, our framework proposes three types of factors that
can cause incidents: system-related (e.g., CBRN training data), contextual
(e.g., prompt injections), and cognitive (e.g., misunderstanding a user
request). We also identify specific information that could help clarify which
factors are relevant to a given incident: activity logs, system documentation
and access, and information about the tools an agent uses. We provide
recommendations for 1) what information incident reports should include and 2)
what information developers and deployers should retain and make available to
incident investigators upon request. As we transition to a world with more
agents, understanding agent incidents will become increasingly crucial for
managing risks.
Ссылки и действия
Дополнительные ресурсы: