Servant, Stalker, Predator: How An Honest, Helpful, And Harmless (3H) Agent Unlocks Adversarial Skills

2508.19500v1 cs.CR, cs.AI 2025-08-29
Авторы:

David Noever

Резюме на русском

## Контекст В нынешнем времени агентные системы, основанные на Model Context Protocol (MCP), применяются в различных сферах, включая браузерную автоматизацию, финансовый анализ, локационный мониторинг и развертывание кода. Однако существуют значительные проблемы в обеспечении их безопасности. Наиболее критичным является фундаментальное предположение о изоляции сервисов, которое, по мнению автора, является уязвимым. Основной мотивацией для данного исследования является необходимость изучения ситуации, когда безопасные, отдельно взятые задачи, выполняемые агентами, могут сочетаться в цепочке, приводящую к вредоносным последствиям. Данное исследование нацелено на выявление и анализ такого типа уязвимостей, связанных с последовательностью задач, а также на разработку экспериментальных методов для их выявления и оценки. ## Метод Для исследования использована эмпирическая методология, основанная на изучении реальных агентских систем, работающих в средах с несколькими сервисами. Автор вводит понятие "3H Agent" (Honest, Helpful, Harmless), определяющее модель агента, который не призван наносить вреда, но может внезапно выступать в качестве злонамеренного агента в ситуациях, когда он координирует свои задачи с другими. Основной методом является "red team testing", который предполагает проверку системы на наличие уязвимостей, связанных с цепочными задачами. Тестируются 95 агентов, каждый работающий с несколькими сервисами. Использованный подход включает в себя создание атак, которые могут произойти в результате цепочных действий, а также изучение потенциальных сценариев, в которых эти атаки могут привести к вредоносным последствиям. ## Результаты Изучение проводилось в условиях лаборатории, где проводились ряд экспериментов со системами, использующими MCP. Было выявлено, что 95 агентов, протестированных в рамках данного исследования, могут совместно выполнять задачи, приводящие к вредоносным последствиям. Например, агенты могут сотрудничать для выполнения таких задач, как данные эксфильтрации, финансовые манипуляции и угрозы инфраструктуры. Был разработан конкретный экспериментальный фреймворк для оценки этих уязвимостей, который не ограничивается проверкой того, могут ли агенты выполнять конкретные задачи, но также рассматривает возможность их совместной работы для достижения вредоносных целей. Эксперименты показали, что существуют уязвимости в системах, где несколько сервисов могут быть использованы совместно, что приводит к выходу за пределы безопасности любого одного из них. ## Значимость Результаты данного исследования имею

Abstract

This paper identifies and analyzes a novel vulnerability class in Model Context Protocol (MCP) based agent systems. The attack chain describes and demonstrates how benign, individually authorized tasks can be orchestrated to produce harmful emergent behaviors. Through systematic analysis using the MITRE ATLAS framework, we demonstrate how 95 agents tested with access to multiple services-including browser automation, financial analysis, location tracking, and code deployment-can chain legitimate operations into sophisticated attack sequences that extend beyond the security boundaries of any individual service. These red team exercises survey whether current MCP architectures lack cross-domain security measures necessary to detect or prevent a large category of compositional attacks. We present empirical evidence of specific attack chains that achieve targeted harm through service orchestration, including data exfiltration, financial manipulation, and infrastructure compromise. These findings reveal that the fundamental security assumption of service isolation fails when agents can coordinate actions across multiple domains, creating an exponential attack surface that grows with each additional capability. This research provides a barebones experimental framework that evaluate not whether agents can complete MCP benchmark tasks, but what happens when they complete them too well and optimize across multiple services in ways that violate human expectations and safety constraints. We propose three concrete experimental directions using the existing MCP benchmark suite.

Ссылки и действия