CyberSOCEval: Benchmarking LLMs Capabilities for Malware Analysis and Threat Intelligence Reasoning

2509.20166v1 cs.CR, cs.AI 2025-09-26

Авторы:

Lauren Deason, Adam Bali, Ciprian Bejean, Diana Bolocan, James Crnkovich, Ioana Croitoru, Krishna Durai, Chase Midler, Calin Miron, David Molnar, Brad Moon, Bruno Ostarcevic, Alberto Peltea, Matt Rosenberg, Catalin Sandu, Arthur Saputkin, Sagar Shah, Daniel Stan, Ernest Szocs, Shengye Wan, Spencer Whitman, Sven Krasser, Joshua Saxe

Резюме на русском

## Контекст Modern cybersecurity операции сталкиваются с значительными вызовами, включая поток безопасности, угроз и сигналов, а также неоднозначную бизнес-контексту. Эти задачи требуют продвинутых методов анализа и принятия решений. Большие языковые модели (LLMs) показали свою эффективность в многих областях, но их потенциал в сфере безопасности еще не полностью оценен. Существующие бенчмарки не полностью отражают сценарии, которые важны для реальных бизнес-ситуаций. Это создает проблемы для разработчиков, которые не могут определить направление их работы, и для пользователей, которые не могут выбрать наиболее эффективную модель. Без открытых бенчмарков невозможно строить надежные открытые решения, что дает преимущество злоумышленникам, которые уже используют AI в своих атаках. ## Метод CyberSOCEval — это новый набор бенчмарков в рамках CyberSecEval 4, определенный для оценки моделей LLMs в двух ключевых областях: анализе малвира (malware analysis) и рассуждении в области технического угрозного интеллекта (threat intelligence reasoning). Тестовые задачи включают поиск вредоносных файлов, идентификацию вредоносной активности и применение теории угроз. Методы оценки используют различные типы данных, включая метаданные файлов, логи и тексты. Архитектура бенчмарка основана на открытых стандартах, позволяющих легко добавлять новые задачи и модели. Это позволяет проводить сравнительные эксперименты и отслеживать улучшения моделей во времени. ## Результаты Выполнены эксперименты с основными моделями LLMs, включая предварительно обученные и модели на основе тестирования во время работы (test-time scaling). Большие модели показали значительные выигрыши в обеих областях, подтвердив парадокс тренировки (scaling laws). Однако рассуждение во время теста (test-time scaling) не дало таких выигрышей, как в задачах кодирования и математики, что указывает на недостаток в обучении моделей к работе с угрозами в сфере безопасности. Это открывает новый путь для развития моделей, ориентированных на cybersecurity. ## Значимость CyberSOCEval предоставляет открытый стандарт для оценки моделей LLMs в сфере безопасности, повышая прозрачность и доступность результатов. Он может быть применен в сферах от обучения новых моделей до развития новых бизнес-приложений. Особый польза открывается для команд SOC, которым требуется эффективная автоматизация безопасности. Эта работа также мотивирует разработчиков моделей направлять свои усилия на решение реальных проблем безопасности, воздействуя на сообщество как защитников, так и разработчиков. ## Выводы CyberSOCEval — это значительный шаг в создании открытых бенчмарков для LLMs в сфере безопасности

Abstract

Today's cyber defenders are overwhelmed by a deluge of security alerts, threat intelligence signals, and shifting business context, creating an urgent need for AI systems to enhance operational security work. While Large Language Models (LLMs) have the potential to automate and scale Security Operations Center (SOC) operations, existing evaluations do not fully assess the scenarios most relevant to real-world defenders. This lack of informed evaluation impacts both AI developers and those applying LLMs to SOC automation. Without clear insight into LLM performance in real-world security scenarios, developers lack a north star for development, and users cannot reliably select the most effective models. Meanwhile, malicious actors are using AI to scale cyber attacks, highlighting the need for open source benchmarks to drive adoption and community-driven improvement among defenders and model developers. To address this, we introduce CyberSOCEval, a new suite of open source benchmarks within CyberSecEval 4. CyberSOCEval includes benchmarks tailored to evaluate LLMs in two tasks: Malware Analysis and Threat Intelligence Reasoning--core defensive domains with inadequate coverage in current benchmarks. Our evaluations show that larger, more modern LLMs tend to perform better, confirming the training scaling laws paradigm. We also find that reasoning models leveraging test time scaling do not achieve the same boost as in coding and math, suggesting these models have not been trained to reason about cybersecurity analysis, and pointing to a key opportunity for improvement. Finally, current LLMs are far from saturating our evaluations, showing that CyberSOCEval presents a significant challenge for AI developers to improve cyber defense capabilities.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

CyberSOCEval: Benchmarking LLMs Capabilities for Malware Analysis and Threat Intelligence Reasoning

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

A Light-Weight Large Language Model File Format for Highly-Secure Model Distribu...

SoK: a Comprehensive Causality Analysis Framework for Large Language Model Secur...

Hey GPT-OSS, Looks Like You Got It - Now Walk Me Through It! An Assessment of th...

Context-Aware Hierarchical Learning: A Two-Step Paradigm towards Safer LLMs

Large Language Model based Smart Contract Auditing with LLMBugScanner

Навигация