PentestJudge: Judging Agent Behavior Against Operational Requirements
2508.02921v1
cs.AI, cs.CR
2025-08-09
Авторы:
Shane Caldwell, Max Harley, Michael Kouremetis, Vincent Abruzzo, Will Pearce
Резюме на русском
Мы представляем PentestJudge — систему, оценивающую действия пентстинговых агентов в задачах информационной безопасности. PentestJudge использует большой языковой модель (LLM) в качестве судьи, которая анализирует динамику состояний и историю использования инструментов агента, чтобы определить соответствие его действий операционным критериям. Для этого мы разработали иерархические критерии, структурировав задачи пентстинга в простые подзадачи и логические утверждения. Модели-судьи сравниваются с опытными специалистами по безопасности с помощью метрик качества, таких как F1-меры. Лучшая модель достигла F1 = 0.83. Мы обнаружили, что модели, лучше справляющиеся с использованием инструментов, более близки к оценкам экспертов. Также выявили, что дешевые модели могут соотноситься с дорогими, что подтверждает возможность использовать PentestJudge для проверки результатов. Это модель позволяет создать методологию для оценки качества АИ-систем в секторе безопасности.
Abstract
We introduce PentestJudge, a system for evaluating the operations of
penetration testing agents. PentestJudge is a large language model
(LLM)-as-judge with access to tools that allow it to consume arbitrary
trajectories of agent states and tool call history to determine whether a
security agent's actions meet certain operating criteria that would be
impractical to evaluate programmatically. We develop rubrics that use a tree
structure to hierarchically collapse the penetration testing task for a
particular environment into smaller, simpler, and more manageable sub-tasks and
criteria until each leaf node represents simple yes-or-no criteria for
PentestJudge to evaluate. Task nodes are broken down into different categories
related to operational objectives, operational security, and tradecraft.
LLM-as-judge scores are compared to human domain experts as a ground-truth
reference, allowing us to compare their relative performance with standard
binary classification metrics, such as F1 scores. We evaluate several frontier
and open-source models acting as judge agents, with the best model reaching an
F1 score of 0.83. We find models that are better at tool-use perform more
closely to human experts. By stratifying the F1 scores by requirement type, we
find even models with similar overall scores struggle with different types of
questions, suggesting certain models may be better judges of particular
operating criteria. We find that weaker and cheaper models can judge the
trajectories of pentests performed by stronger and more expensive models,
suggesting verification may be easier than generation for the penetration
testing task. We share this methodology to facilitate future research in
understanding the ability of judges to holistically and scalably evaluate the
process quality of AI-based information security agents so that they may be
confidently used in sensitive production environments.
Ссылки и действия
Дополнительные ресурсы: