Benchmarking LLM-Assisted Blue Teaming via Standardized Threat Hunting
2509.23571v1
cs.CR, cs.AI
2025-10-01
Авторы:
Yuqiao Meng, Luoxi Tang, Feiyang Yu, Xi Li, Guanhua Yan, Ping Yang, Zhaohan Xi
Резюме на русском
## Контекст
В последние годы хакерские атаки становятся всё более масштабными и сложными, вынуждая системы безопасности применять современные средства для профилактики и противодействия угрозам. Одним из ключевых вопросов является эффективность инструментов, позволяющих оперативно выявлять и устранять угрозы. Большинство нынешних систем сильно зависят от человеческого фактора или требуют ручного вмешательства, что замедляет процессы реагирования. Это влечёт за собой потери времени и ресурсов, что на самом деле может оказаться критично в условиях атаки.
Проблема в том, что злоумышленники постоянно развивают новые методы атаки, при этом существующие системы зачастую не могут профилактически динамически адаптироваться к этим изменениям. Таким образом, требуется развитие методов, позволяющих автоматизировать и оптимизировать процессы поиска и устранения угроз. Ло LLM-Assisted Blue Teaming, либо поддержка киберсурождения через ларге лангуадж моделей (LLM), представляет собой ключевой подход, который может улучшить производительность и точность в процессе локализации и исправления угроз.
## Метод
В статье представлен бенчмарк CyberTeam, разработанный для оценки и оптимизации ларге лангуадж моделей в процессе локализации угроз. Методология CyberTeam основывается на стандартизации процесса поиска угроз, превращая его в последовательность модульных шагов, каждый из которых соответствует конкретной задаче анализа или реагирования. Этот подход позволяет улучшить отказоустойчивость и гармонизировать процессы работы.
Бенчмарк состоит из 30 задач, разделённых на 9 модулей, каждый из которых определяет специфический аспект анализа угроз. Это включает в себя такие задачи, как атрибуция угроз, анализ поведения системы, идентификация вредоносных действий, а также реагирование на инциденты. Модели LLM подходят для каждой задачи с помощью выполнения многократных модельных операций, организованных в логической последовательности.
## Результаты
С помощью CyberTeam проведено сравнение нескольких LLM с основными цифровыми средствами безопасности. Оценивались показатели точности, скорости реакции и возможности автоматизации процессов. Результаты показали, что стандартизованный подход CyberTeam приводит к улучшению целостности и эффективности процессов поиска угроз в сравнении с открытыми и неструктурированными логиками работы.
Кроме того, был определён показатель устойчивости моделей LLM к изменениям типов угроз, что демонстрирует их преимущество в динамических условиях. В целом, результаты показывают, что LLM могут значительно улучшить про
Abstract
As cyber threats continue to grow in scale and sophistication, blue team
defenders increasingly require advanced tools to proactively detect and
mitigate risks. Large Language Models (LLMs) offer promising capabilities for
enhancing threat analysis. However, their effectiveness in real-world blue team
threat-hunting scenarios remains insufficiently explored. This paper presents
CyberTeam, a benchmark designed to guide LLMs in blue teaming practice.
CyberTeam constructs a standardized workflow in two stages. First, it models
realistic threat-hunting workflows by capturing the dependencies among
analytical tasks from threat attribution to incident response. Next, each task
is addressed through a set of operational modules tailored to its specific
analytical requirements. This transforms threat hunting into a structured
sequence of reasoning steps, with each step grounded in a discrete operation
and ordered according to task-specific dependencies. Guided by this framework,
LLMs are directed to perform threat-hunting tasks through modularized steps.
Overall, CyberTeam integrates 30 tasks and 9 operational modules to guide LLMs
through standardized threat analysis. We evaluate both leading LLMs and
state-of-the-art cybersecurity agents, comparing CyberTeam against open-ended
reasoning strategies. Our results highlight the improvements enabled by
standardized design, while also revealing the limitations of open-ended
reasoning in real-world threat hunting.
Ссылки и действия
Дополнительные ресурсы: