PentestJudge: Judging Agent Behavior Against Operational Requirements

2508.02921v1 cs.AI, cs.CR 2025-08-09
Авторы:

Shane Caldwell, Max Harley, Michael Kouremetis, Vincent Abruzzo, Will Pearce

Резюме на русском

Мы представляем PentestJudge — систему, оценивающую действия пентстинговых агентов в задачах информационной безопасности. PentestJudge использует большой языковой модель (LLM) в качестве судьи, которая анализирует динамику состояний и историю использования инструментов агента, чтобы определить соответствие его действий операционным критериям. Для этого мы разработали иерархические критерии, структурировав задачи пентстинга в простые подзадачи и логические утверждения. Модели-судьи сравниваются с опытными специалистами по безопасности с помощью метрик качества, таких как F1-меры. Лучшая модель достигла F1 = 0.83. Мы обнаружили, что модели, лучше справляющиеся с использованием инструментов, более близки к оценкам экспертов. Также выявили, что дешевые модели могут соотноситься с дорогими, что подтверждает возможность использовать PentestJudge для проверки результатов. Это модель позволяет создать методологию для оценки качества АИ-систем в секторе безопасности.

Abstract

We introduce PentestJudge, a system for evaluating the operations of penetration testing agents. PentestJudge is a large language model (LLM)-as-judge with access to tools that allow it to consume arbitrary trajectories of agent states and tool call history to determine whether a security agent's actions meet certain operating criteria that would be impractical to evaluate programmatically. We develop rubrics that use a tree structure to hierarchically collapse the penetration testing task for a particular environment into smaller, simpler, and more manageable sub-tasks and criteria until each leaf node represents simple yes-or-no criteria for PentestJudge to evaluate. Task nodes are broken down into different categories related to operational objectives, operational security, and tradecraft. LLM-as-judge scores are compared to human domain experts as a ground-truth reference, allowing us to compare their relative performance with standard binary classification metrics, such as F1 scores. We evaluate several frontier and open-source models acting as judge agents, with the best model reaching an F1 score of 0.83. We find models that are better at tool-use perform more closely to human experts. By stratifying the F1 scores by requirement type, we find even models with similar overall scores struggle with different types of questions, suggesting certain models may be better judges of particular operating criteria. We find that weaker and cheaper models can judge the trajectories of pentests performed by stronger and more expensive models, suggesting verification may be easier than generation for the penetration testing task. We share this methodology to facilitate future research in understanding the ability of judges to holistically and scalably evaluate the process quality of AI-based information security agents so that they may be confidently used in sensitive production environments.

Ссылки и действия