From Capabilities to Performance: Evaluating Key Functional Properties of LLM Architectures in Penetration Testing

2509.14289v1 cs.AI, cs.CL, cs.LG 2025-09-20
Авторы:

Lanxiao Huang, Daksh Dave, Ming Jin, Tyler Cody, Peter Beling

Резюме на русском

## Контекст Модели ларж-лангуадж моделс (LLM) широко применяются для автоматизации и усиления процессов пенетрационного тестирования. Однако их эффективность и надежность в различных фазах атак остаются весьма сомнительными. Это приводит к необходимости оценить их реальные возможности и уязвимости. Исследование сосредоточено на изучении различных LLM-агентов, включая одноагентные и модульные конструкции, в реалистичных сценариях пенетрационного тестирования. Целем работы является измерение их производительности и выявление повторяющихся проблемных моментов в работе. Оценка позволит принять обоснованные решения о том, какие архитектуры и методы лучше всего подходят для автоматизации пенетрационных тестов. ## Метод Эксперименты были проведены с использованием пяти основных технических решений, каждое из которых адресует конкретную функциональную способность: глобальное контекстное память (GCM), взаимодействие между агентами (IAM), контекстно-обусловленный вызов (CCI), адаптивное планирование (AP) и реальное временное мониторинге (RTM). Эти компоненты были рассмотрены в качестве модулей, которые могут быть добавлены к основной LLM-архитектуре, чтобы улучшить ее возможности. Тестирование проводилось в условиях реальных угроз, использовавшихся для оценки производительности в вопросах контекстности, синхронности, стратегического планирования и динамического ответа на изменения. ## Результаты Исследование показало, что некоторые LLM-архитектуры уже имеют некоторые функциональные способности, но без дополнительных модулей их работа остается недостаточно надежной. Модули GCM и CCI улучшили контекстную когницию и синхронизацию между агентами, что увеличило точность исполнения инструментов. Модуль AP повысил уровень стратегического планирования и определения ошибок, а RTM обеспечил реакцию на внезапные изменения в реальном времени. Таким образом, модульные подходы, сочетающие несколько функциональных способностей, оказались более эффективными в задачах, требующих многоэтапного подхода и мгновенного реагирования. ## Значимость Полученные результаты имеют значительное значение для развития систем автоматизации пенетрационных тестов. Они позволяют усовершенствовать LLM-агенты, делая их более надежными в атаках с угрозами в реальном времени. Интеграция модулей, таких как GCM, CCI, AP и RTM, может не только увеличить эффективность, но и обеспечить более глубокую контекстную аналитику и совместную работу многоагентных систем. Эти наработки могут быть применены не только в сфере IT-безопасности, но и в других областях, где требуется над

Abstract

Large language models (LLMs) are increasingly used to automate or augment penetration testing, but their effectiveness and reliability across attack phases remain unclear. We present a comprehensive evaluation of multiple LLM-based agents, from single-agent to modular designs, across realistic penetration testing scenarios, measuring empirical performance and recurring failure patterns. We also isolate the impact of five core functional capabilities via targeted augmentations: Global Context Memory (GCM), Inter-Agent Messaging (IAM), Context-Conditioned Invocation (CCI), Adaptive Planning (AP), and Real-Time Monitoring (RTM). These interventions support, respectively: (i) context coherence and retention, (ii) inter-component coordination and state management, (iii) tool use accuracy and selective execution, (iv) multi-step strategic planning, error detection, and recovery, and (v) real-time dynamic responsiveness. Our results show that while some architectures natively exhibit subsets of these properties, targeted augmentations substantially improve modular agent performance, especially in complex, multi-step, and real-time penetration testing tasks.

Ссылки и действия