Learning Robust Penetration-Testing Policies under Partial Observability: A systematic evaluation

2509.20008v1 cs.LG, cs.CR 2025-09-26
Авторы:

Raphael Simon, Pieter Libin, Wim Mees

Резюме на русском

#### Контекст Проникновенное тестирование (penetration testing) — это синтетическое моделирование атак для выявления уязвимостей систем безопасности. Это подходящий для автоматизации задач разработки и тестирования систем, но требует учета многих реальных факторов. Особым трудностьем является частичная наблюдаемость (partial observability), которая опровергает Марковское свойство в Марковских Динамических Моделях (MDP). Это вызывает сложности в построении устойчивых стратегий. Наша мотивация заключается в развитии алгоритмов, которые могут быть применены в реальном мире, где данные часто приходят неполностью или с задержкой. Мы стремимся создать устойчивые и трансферируемые стратегии, чтобы гарантировать надежную работу в различных и непредсказуемых условиях. #### Метод Мы рассматриваем задачи проникновенного тестирования в сетях с разным числом хостов, чтобы моделировать различные уровни сложности. Для преодоления частичной наблюдаемости мы исследуем различные решения: 1. **Frame-stacking**: Объединение нескольких кадров в один для увеличения контекста. 2. **Добавление исторической информации**: Использование дополнительных данных, чтобы повысить устойчивость. 3. **Архитектуры с применением трансформеров**: Использование моделей с глубоким пониманием контекста. 4. **Повторяющиеся модели (recurrent architectures)**: Использование ячеек языковых моделей для последовательного процесса. Мы сравниваем эти подходы с базовым методом Proximal Policy Optimization (PPO) для оценки эффективности. #### Результаты Мы проводим эксперименты на сетях различных размеров для оценки работы алгоритмов. Наши результаты показывают, что **расширенные методы PPO с использованием исторической информации** показывают три раза более быстрое сходимость по сравнению с базовым алгоритмом PPO. Мы также выявляем, что **трансформерные архитектуры** демонстрируют высокую точность и устойчивость, особенно при работе с более крупными сетями. Мы также проводим многочисленные ручные испытания для оценки поведения агентов, что дает комплексный взгляд на то, как каждый метод решает задачу. #### Значимость Результаты имеют большое значение в широких областях применения, в том числе в защите систем информационной безопасности, моделировании вредоносных атак для предварительного распознавания угроз, а также в обучении моделей для частично наблюдаемых задач. Мы показываем, что наши алгоритмы могут быть применены в реальных системах, обеспечивая более надежную защиту от новых угроз. Эти подходы также могут быть использованы в других задачах, таких как синтетическое моделирование и автома

Abstract

Penetration testing, the simulation of cyberattacks to identify security vulnerabilities, presents a sequential decision-making problem well-suited for reinforcement learning (RL) automation. Like many applications of RL to real-world problems, partial observability presents a major challenge, as it invalidates the Markov property present in Markov Decision Processes (MDPs). Partially Observable MDPs require history aggregation or belief state estimation to learn successful policies. We investigate stochastic, partially observable penetration testing scenarios over host networks of varying size, aiming to better reflect real-world complexity through more challenging and representative benchmarks. This approach leads to the development of more robust and transferable policies, which are crucial for ensuring reliable performance across diverse and unpredictable real-world environments. Using vanilla Proximal Policy Optimization (PPO) as a baseline, we compare a selection of PPO variants designed to mitigate partial observability, including frame-stacking, augmenting observations with historical information, and employing recurrent or transformer-based architectures. We conduct a systematic empirical analysis of these algorithms across different host network sizes. We find that this task greatly benefits from history aggregation. Converging three times faster than other approaches. Manual inspection of the learned policies by the algorithms reveals clear distinctions and provides insights that go beyond quantitative results.

Ссылки и действия