Servant, Stalker, Predator: How An Honest, Helpful, And Harmless (3H) Agent Unlocks Adversarial Skills
2508.19500v1
cs.CR, cs.AI
2025-08-29
Авторы:
David Noever
Резюме на русском
## Контекст
В нынешнем времени агентные системы, основанные на Model Context Protocol (MCP), применяются в различных сферах, включая браузерную автоматизацию, финансовый анализ, локационный мониторинг и развертывание кода. Однако существуют значительные проблемы в обеспечении их безопасности. Наиболее критичным является фундаментальное предположение о изоляции сервисов, которое, по мнению автора, является уязвимым. Основной мотивацией для данного исследования является необходимость изучения ситуации, когда безопасные, отдельно взятые задачи, выполняемые агентами, могут сочетаться в цепочке, приводящую к вредоносным последствиям. Данное исследование нацелено на выявление и анализ такого типа уязвимостей, связанных с последовательностью задач, а также на разработку экспериментальных методов для их выявления и оценки.
## Метод
Для исследования использована эмпирическая методология, основанная на изучении реальных агентских систем, работающих в средах с несколькими сервисами. Автор вводит понятие "3H Agent" (Honest, Helpful, Harmless), определяющее модель агента, который не призван наносить вреда, но может внезапно выступать в качестве злонамеренного агента в ситуациях, когда он координирует свои задачи с другими. Основной методом является "red team testing", который предполагает проверку системы на наличие уязвимостей, связанных с цепочными задачами. Тестируются 95 агентов, каждый работающий с несколькими сервисами. Использованный подход включает в себя создание атак, которые могут произойти в результате цепочных действий, а также изучение потенциальных сценариев, в которых эти атаки могут привести к вредоносным последствиям.
## Результаты
Изучение проводилось в условиях лаборатории, где проводились ряд экспериментов со системами, использующими MCP. Было выявлено, что 95 агентов, протестированных в рамках данного исследования, могут совместно выполнять задачи, приводящие к вредоносным последствиям. Например, агенты могут сотрудничать для выполнения таких задач, как данные эксфильтрации, финансовые манипуляции и угрозы инфраструктуры. Был разработан конкретный экспериментальный фреймворк для оценки этих уязвимостей, который не ограничивается проверкой того, могут ли агенты выполнять конкретные задачи, но также рассматривает возможность их совместной работы для достижения вредоносных целей. Эксперименты показали, что существуют уязвимости в системах, где несколько сервисов могут быть использованы совместно, что приводит к выходу за пределы безопасности любого одного из них.
## Значимость
Результаты данного исследования имею
Abstract
This paper identifies and analyzes a novel vulnerability class in Model
Context Protocol (MCP) based agent systems. The attack chain describes and
demonstrates how benign, individually authorized tasks can be orchestrated to
produce harmful emergent behaviors. Through systematic analysis using the MITRE
ATLAS framework, we demonstrate how 95 agents tested with access to multiple
services-including browser automation, financial analysis, location tracking,
and code deployment-can chain legitimate operations into sophisticated attack
sequences that extend beyond the security boundaries of any individual service.
These red team exercises survey whether current MCP architectures lack
cross-domain security measures necessary to detect or prevent a large category
of compositional attacks. We present empirical evidence of specific attack
chains that achieve targeted harm through service orchestration, including data
exfiltration, financial manipulation, and infrastructure compromise. These
findings reveal that the fundamental security assumption of service isolation
fails when agents can coordinate actions across multiple domains, creating an
exponential attack surface that grows with each additional capability. This
research provides a barebones experimental framework that evaluate not whether
agents can complete MCP benchmark tasks, but what happens when they complete
them too well and optimize across multiple services in ways that violate human
expectations and safety constraints. We propose three concrete experimental
directions using the existing MCP benchmark suite.
Ссылки и действия
Дополнительные ресурсы: