Automated Cyber Defense with Generalizable Graph-based Reinforcement Learning Agents

2509.16151v1 cs.LG, cs.CR 2025-09-23

Авторы:

Isaiah J. King, Benjamin Bowman, H. Howie Huang

Резюме на русском

## Контекст Обеспечение автоматизированной системы защиты от киберугроз (Automated Cyber Defense, ACD) является ключевым заданием для современных компьютерных сетей. Несмотря на развитие технологий, существующие подходы часто ограничиваются специфическими сетевыми топологиями и не могут адаптироваться к новым угрозам или изменениям сетевой структуры. Традиционные методы не способны обеспечить универсальность и нулевую доступность к новым сетям. Без общей модели, которая бы учитывала иерархические и относительные свойства сетевых субъектов, эффективный автоматизированный способ защиты от новых и изменяющихся угроз остается недостижимым. Это препятствует развитию универсальных алгоритмов для динамического обнаружения и борьбы с новыми киберугрозами. ## Метод Для решения этой проблемы в работе предлагается формализовать ACD как чисто графовый контекст-зависимый Марковский процесс с частично наблюдаемыми состояниями (Partially Observable Graph-based Markov Decision Process, POG-MDP). Этот подход позволяет использовать ребра графа, которые представляют собой субъекты в сети, а значения вершин содержат дополнительную информацию о серверах, узлах или других субъектах. Используя этот фреймворк, агенты будут использовать супервизионный графовый реинфорсмент (Supervised Graph-based Reinforcement Learning), чтобы учиться и решать задачи ACD в новых сетях. Этот подход позволяет агентам лучше принимать решения, оперируя не только состоянием сети, но и ее структурой. ## Результаты Авторы проводили эксперименты на нескольких сетевых моделях, включая новые и изменяющиеся сети. Модели были тестированы против различных атак, включая широкие спектр злоумышленников. Для обучения использовались данные, созданные с помощью виртуальных сетей, а также наборы данных, связанных с реальными киберугрозами. Результаты были сравнены с состоянием технологии, и показано, что алгоритмы, основанные на графовой модели, показали существенное превосходство в защите новых сетей и достигли уровня защиты, который превышает ранее достигнутые результаты. ## Значимость Предлагаемый подход может быть применен в различных областях, включая системы самообновления защиты, автоматизированное обнаружение киберугроз и анализ системных угроз. Основные преимущества заключаются в независимости от топологии сети, общий характер решений и модели, которая может быть легко реализована в различных условиях. Эта модель может сыграть ключевую роль в создании универсальных и эффективных систем защиты от новых киберугроз, предоставив возможность расширения и адаптации защиты под различные системные

Abstract

Deep reinforcement learning (RL) is emerging as a viable strategy for automated cyber defense (ACD). The traditional RL approach represents networks as a list of computers in various states of safety or threat. Unfortunately, these models are forced to overfit to specific network topologies, rendering them ineffective when faced with even small environmental perturbations. In this work, we frame ACD as a two-player context-based partially observable Markov decision problem with observations represented as attributed graphs. This approach allows our agents to reason through the lens of relational inductive bias. Agents learn how to reason about hosts interacting with other system entities in a more general manner, and their actions are understood as edits to the graph representing the environment. By introducing this bias, we will show that our agents can better reason about the states of networks and zero-shot adapt to new ones. We show that this approach outperforms the state-of-the-art by a wide margin, and makes our agents capable of defending never-before-seen networks against a wide range of adversaries in a variety of complex, and multi-agent environments.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Automated Cyber Defense with Generalizable Graph-based Reinforcement Learning Agents

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Towards Irreversible Machine Unlearning for Diffusion Models

Log Probability Tracking of LLM APIs

Efficient Public Verification of Private ML via Regularization

Exploiting \texttt{ftrace}'s \texttt{function\_graph} Tracer Features for Machin...

SD-CGAN: Conditional Sinkhorn Divergence GAN for DDoS Anomaly Detection in IoT N...

Навигация