Automated Cyber Defense with Generalizable Graph-based Reinforcement Learning Agents
2509.16151v1
cs.LG, cs.CR
2025-09-23
Авторы:
Isaiah J. King, Benjamin Bowman, H. Howie Huang
Резюме на русском
## Контекст
Обеспечение автоматизированной системы защиты от киберугроз (Automated Cyber Defense, ACD) является ключевым заданием для современных компьютерных сетей. Несмотря на развитие технологий, существующие подходы часто ограничиваются специфическими сетевыми топологиями и не могут адаптироваться к новым угрозам или изменениям сетевой структуры. Традиционные методы не способны обеспечить универсальность и нулевую доступность к новым сетям. Без общей модели, которая бы учитывала иерархические и относительные свойства сетевых субъектов, эффективный автоматизированный способ защиты от новых и изменяющихся угроз остается недостижимым. Это препятствует развитию универсальных алгоритмов для динамического обнаружения и борьбы с новыми киберугрозами.
## Метод
Для решения этой проблемы в работе предлагается формализовать ACD как чисто графовый контекст-зависимый Марковский процесс с частично наблюдаемыми состояниями (Partially Observable Graph-based Markov Decision Process, POG-MDP). Этот подход позволяет использовать ребра графа, которые представляют собой субъекты в сети, а значения вершин содержат дополнительную информацию о серверах, узлах или других субъектах. Используя этот фреймворк, агенты будут использовать супервизионный графовый реинфорсмент (Supervised Graph-based Reinforcement Learning), чтобы учиться и решать задачи ACD в новых сетях. Этот подход позволяет агентам лучше принимать решения, оперируя не только состоянием сети, но и ее структурой.
## Результаты
Авторы проводили эксперименты на нескольких сетевых моделях, включая новые и изменяющиеся сети. Модели были тестированы против различных атак, включая широкие спектр злоумышленников. Для обучения использовались данные, созданные с помощью виртуальных сетей, а также наборы данных, связанных с реальными киберугрозами. Результаты были сравнены с состоянием технологии, и показано, что алгоритмы, основанные на графовой модели, показали существенное превосходство в защите новых сетей и достигли уровня защиты, который превышает ранее достигнутые результаты.
## Значимость
Предлагаемый подход может быть применен в различных областях, включая системы самообновления защиты, автоматизированное обнаружение киберугроз и анализ системных угроз. Основные преимущества заключаются в независимости от топологии сети, общий характер решений и модели, которая может быть легко реализована в различных условиях. Эта модель может сыграть ключевую роль в создании универсальных и эффективных систем защиты от новых киберугроз, предоставив возможность расширения и адаптации защиты под различные системные
Abstract
Deep reinforcement learning (RL) is emerging as a viable strategy for
automated cyber defense (ACD). The traditional RL approach represents networks
as a list of computers in various states of safety or threat. Unfortunately,
these models are forced to overfit to specific network topologies, rendering
them ineffective when faced with even small environmental perturbations. In
this work, we frame ACD as a two-player context-based partially observable
Markov decision problem with observations represented as attributed graphs.
This approach allows our agents to reason through the lens of relational
inductive bias. Agents learn how to reason about hosts interacting with other
system entities in a more general manner, and their actions are understood as
edits to the graph representing the environment. By introducing this bias, we
will show that our agents can better reason about the states of networks and
zero-shot adapt to new ones. We show that this approach outperforms the
state-of-the-art by a wide margin, and makes our agents capable of defending
never-before-seen networks against a wide range of adversaries in a variety of
complex, and multi-agent environments.
Ссылки и действия
Дополнительные ресурсы: