PoolFlip: A Multi-Agent Reinforcement Learning Security Environment for Cyber Defense

2508.19488v1 cs.LG, cs.AI, cs.CR 2025-08-29
Авторы:

Xavier Cadet, Simona Boboila, Sie Hendrata Dharmawan, Alina Oprea, Peter Chin

Резюме на русском

## Контекст Cyber-защита требует автоматизации принятия решений в защитных мероприятиях, справляясь с угрозами, оперирующими стелсом, сановнием и постоянно меняющимися девиационными стратегиями. Игра FlipIt служит основополагающим моделированием взаимодействий между защитником и скрытым врагом, который подкрадывается к системе и не сразу обнаруживается. В FlipIt участники (защитник и нападающий) конкурируют за управление ресурсом, выполняя действие Flip и испытывая накладные расходы. Однако ранее разработанные фреймворки FlipIt ограничены малым кругом техник или специализированными методами обучения, которые приводят к уязвимости и неустойчивости в отношении новых угроз. Для решения этих проблем мы предлагаем PoolFlip — расширенную среду для исследований, основанную на многоагентном подходе и позволяющую эффективно обучать агентов-защитников и агентов-нападающих. ## Метод Мы развиваем PoolFlip, восходящий к FlipIt, в качестве многоагентной среды Gym. Она дополняет стандартную модель, позволяя многоагентному обучению в среде с разными стратегиями и конфигурациями. Мы также предлагаем Flip-PSRO — многоагентный подход, использующий population-based training для тренировки защитных агентов. Эти агенты способны обучаться и адаптироваться к неизвестным, возможно адаптируемым, нападающим. Важной особенностью является использование новых функций владения, которые позволяют агентам-защитникам сбалансировать управление и оптимизацию. ## Результаты Мы проводим эксперименты, используя PoolFlip для сравнения Flip-PSRO с другими подходами. Мы обнаруживаем, что Flip-PSRO $2\times$ более эффективен в генерализации к новым, неизвестным атакам, не встречавшимся во время обучения. Наша среда позволяет агенту-защитнику удерживать контроль над ресурсом, даже при встрече с новыми, неизвестными стратегиями. Это демонстрирует высокую устойчивость Flip-PSRO к неизвестным атакам. ## Значимость PoolFlip может применяться в различных сферах, где требуется адаптивная защита от стелсовых атак. Он предлагает преимущества в скорости и эффективности по сравнению с базовыми методами. Мы увидели, что полученные результаты могут быть применены в защите критически важных систем, включая Интернет вещей, банковские системы и сети государственного уровня. ## Выводы Разработанная среда PoolFlip и метод Flip-PSRO демонстрируют эффективность в обучении защитных стратегий с помощью многоагентного обучения. Мы привлекаем внимание к возможности использования наших решений в условиях реальных угроз. Дальнейшие исследования будут направлены

Abstract

Cyber defense requires automating defensive decision-making under stealthy, deceptive, and continuously evolving adversarial strategies. The FlipIt game provides a foundational framework for modeling interactions between a defender and an advanced adversary that compromises a system without being immediately detected. In FlipIt, the attacker and defender compete to control a shared resource by performing a Flip action and paying a cost. However, the existing FlipIt frameworks rely on a small number of heuristics or specialized learning techniques, which can lead to brittleness and the inability to adapt to new attacks. To address these limitations, we introduce PoolFlip, a multi-agent gym environment that extends the FlipIt game to allow efficient learning for attackers and defenders. Furthermore, we propose Flip-PSRO, a multi-agent reinforcement learning (MARL) approach that leverages population-based training to train defender agents equipped to generalize against a range of unknown, potentially adaptive opponents. Our empirical results suggest that Flip-PSRO defenders are $2\times$ more effective than baselines to generalize to a heuristic attack not exposed in training. In addition, our newly designed ownership-based utility functions ensure that Flip-PSRO defenders maintain a high level of control while optimizing performance.

Ссылки и действия