Learning Robust Penetration-Testing Policies under Partial Observability: A systematic evaluation
2509.20008v1
cs.LG, cs.CR
2025-09-26
Авторы:
Raphael Simon, Pieter Libin, Wim Mees
Резюме на русском
#### Контекст
Проникновенное тестирование (penetration testing) — это синтетическое моделирование атак для выявления уязвимостей систем безопасности. Это подходящий для автоматизации задач разработки и тестирования систем, но требует учета многих реальных факторов. Особым трудностьем является частичная наблюдаемость (partial observability), которая опровергает Марковское свойство в Марковских Динамических Моделях (MDP). Это вызывает сложности в построении устойчивых стратегий. Наша мотивация заключается в развитии алгоритмов, которые могут быть применены в реальном мире, где данные часто приходят неполностью или с задержкой. Мы стремимся создать устойчивые и трансферируемые стратегии, чтобы гарантировать надежную работу в различных и непредсказуемых условиях.
#### Метод
Мы рассматриваем задачи проникновенного тестирования в сетях с разным числом хостов, чтобы моделировать различные уровни сложности. Для преодоления частичной наблюдаемости мы исследуем различные решения:
1. **Frame-stacking**: Объединение нескольких кадров в один для увеличения контекста.
2. **Добавление исторической информации**: Использование дополнительных данных, чтобы повысить устойчивость.
3. **Архитектуры с применением трансформеров**: Использование моделей с глубоким пониманием контекста.
4. **Повторяющиеся модели (recurrent architectures)**: Использование ячеек языковых моделей для последовательного процесса.
Мы сравниваем эти подходы с базовым методом Proximal Policy Optimization (PPO) для оценки эффективности.
#### Результаты
Мы проводим эксперименты на сетях различных размеров для оценки работы алгоритмов. Наши результаты показывают, что **расширенные методы PPO с использованием исторической информации** показывают три раза более быстрое сходимость по сравнению с базовым алгоритмом PPO. Мы также выявляем, что **трансформерные архитектуры** демонстрируют высокую точность и устойчивость, особенно при работе с более крупными сетями. Мы также проводим многочисленные ручные испытания для оценки поведения агентов, что дает комплексный взгляд на то, как каждый метод решает задачу.
#### Значимость
Результаты имеют большое значение в широких областях применения, в том числе в защите систем информационной безопасности, моделировании вредоносных атак для предварительного распознавания угроз, а также в обучении моделей для частично наблюдаемых задач. Мы показываем, что наши алгоритмы могут быть применены в реальных системах, обеспечивая более надежную защиту от новых угроз. Эти подходы также могут быть использованы в других задачах, таких как синтетическое моделирование и автома
Abstract
Penetration testing, the simulation of cyberattacks to identify security
vulnerabilities, presents a sequential decision-making problem well-suited for
reinforcement learning (RL) automation. Like many applications of RL to
real-world problems, partial observability presents a major challenge, as it
invalidates the Markov property present in Markov Decision Processes (MDPs).
Partially Observable MDPs require history aggregation or belief state
estimation to learn successful policies. We investigate stochastic, partially
observable penetration testing scenarios over host networks of varying size,
aiming to better reflect real-world complexity through more challenging and
representative benchmarks. This approach leads to the development of more
robust and transferable policies, which are crucial for ensuring reliable
performance across diverse and unpredictable real-world environments. Using
vanilla Proximal Policy Optimization (PPO) as a baseline, we compare a
selection of PPO variants designed to mitigate partial observability, including
frame-stacking, augmenting observations with historical information, and
employing recurrent or transformer-based architectures. We conduct a systematic
empirical analysis of these algorithms across different host network sizes. We
find that this task greatly benefits from history aggregation. Converging three
times faster than other approaches. Manual inspection of the learned policies
by the algorithms reveals clear distinctions and provides insights that go
beyond quantitative results.
Ссылки и действия
Дополнительные ресурсы: