From Capabilities to Performance: Evaluating Key Functional Properties of LLM Architectures in Penetration Testing
2509.14289v1
cs.AI, cs.CL, cs.LG
2025-09-20
Авторы:
Lanxiao Huang, Daksh Dave, Ming Jin, Tyler Cody, Peter Beling
Резюме на русском
## Контекст
Модели ларж-лангуадж моделс (LLM) широко применяются для автоматизации и усиления процессов пенетрационного тестирования. Однако их эффективность и надежность в различных фазах атак остаются весьма сомнительными. Это приводит к необходимости оценить их реальные возможности и уязвимости. Исследование сосредоточено на изучении различных LLM-агентов, включая одноагентные и модульные конструкции, в реалистичных сценариях пенетрационного тестирования. Целем работы является измерение их производительности и выявление повторяющихся проблемных моментов в работе. Оценка позволит принять обоснованные решения о том, какие архитектуры и методы лучше всего подходят для автоматизации пенетрационных тестов.
## Метод
Эксперименты были проведены с использованием пяти основных технических решений, каждое из которых адресует конкретную функциональную способность: глобальное контекстное память (GCM), взаимодействие между агентами (IAM), контекстно-обусловленный вызов (CCI), адаптивное планирование (AP) и реальное временное мониторинге (RTM). Эти компоненты были рассмотрены в качестве модулей, которые могут быть добавлены к основной LLM-архитектуре, чтобы улучшить ее возможности. Тестирование проводилось в условиях реальных угроз, использовавшихся для оценки производительности в вопросах контекстности, синхронности, стратегического планирования и динамического ответа на изменения.
## Результаты
Исследование показало, что некоторые LLM-архитектуры уже имеют некоторые функциональные способности, но без дополнительных модулей их работа остается недостаточно надежной. Модули GCM и CCI улучшили контекстную когницию и синхронизацию между агентами, что увеличило точность исполнения инструментов. Модуль AP повысил уровень стратегического планирования и определения ошибок, а RTM обеспечил реакцию на внезапные изменения в реальном времени. Таким образом, модульные подходы, сочетающие несколько функциональных способностей, оказались более эффективными в задачах, требующих многоэтапного подхода и мгновенного реагирования.
## Значимость
Полученные результаты имеют значительное значение для развития систем автоматизации пенетрационных тестов. Они позволяют усовершенствовать LLM-агенты, делая их более надежными в атаках с угрозами в реальном времени. Интеграция модулей, таких как GCM, CCI, AP и RTM, может не только увеличить эффективность, но и обеспечить более глубокую контекстную аналитику и совместную работу многоагентных систем. Эти наработки могут быть применены не только в сфере IT-безопасности, но и в других областях, где требуется над
Abstract
Large language models (LLMs) are increasingly used to automate or augment
penetration testing, but their effectiveness and reliability across attack
phases remain unclear. We present a comprehensive evaluation of multiple
LLM-based agents, from single-agent to modular designs, across realistic
penetration testing scenarios, measuring empirical performance and recurring
failure patterns. We also isolate the impact of five core functional
capabilities via targeted augmentations: Global Context Memory (GCM),
Inter-Agent Messaging (IAM), Context-Conditioned Invocation (CCI), Adaptive
Planning (AP), and Real-Time Monitoring (RTM). These interventions support,
respectively: (i) context coherence and retention, (ii) inter-component
coordination and state management, (iii) tool use accuracy and selective
execution, (iv) multi-step strategic planning, error detection, and recovery,
and (v) real-time dynamic responsiveness. Our results show that while some
architectures natively exhibit subsets of these properties, targeted
augmentations substantially improve modular agent performance, especially in
complex, multi-step, and real-time penetration testing tasks.
Ссылки и действия
Дополнительные ресурсы: