Attackers Strike Back? Not Anymore -- An Ensemble of RL Defenders Awakens for APT Detection

2508.19072v1 cs.CR, cs.AI, cs.LG 2025-08-28
Авторы:

Sidahmed Benabderrahmane, Talal Rahwan

Резюме на русском

#### Контекст Advanced Persistent Threats (APTs) представляют собой одну из наиболее опасных угроз для современных цифровых систем. В отличие от традиционных атак, APTs обладают стелс-технологиями, адаптивностью и долговечностью, что делает их труднооткрываемыми статичными системами обнаружения на основе подписей. Эти угрозы могут оставаться незамеченными в течение многих месяцев, собирая критическую информацию и разрушая инфраструктуру. Настоящая работа рассматривает проблемы статичности и неадаптивности существующих систем и предлагает инновационный подход к обнаружению APT-атак, основанный на сочетании глубокого обучения и реинфорсментного обучения (RL). #### Метод Основная идея фреймворка заключается в создании комплексной системы на основе нескольких RL-агентов, которые анализируют поведение процессов в системе. Для этого разработан автокодировщик, который сжимает поведение процессов в высокомерных векторы. Каждый RL-агент обучается использовать эти векторы для различения между безопасными и злонамеренными процессами. Алгоритмы, выбраны для этих агентов: Q-Learning, PPO и DQN. Также включен агент-атакующий, нацеленный на поиск слабых мест в системе. Если любой RL-агент expersи не уверен в своем решении, активное обучение запускается для получения экспертного ввода, чтобы доработать границы разделения. Решение объединяется через голосование, в зависимости от качества каждого RL-агента. #### Результаты Рассмотренная система была тестирована на реальных журналах процессов. Она показала высокую точность в обнаружении APT-атак, превосходя существующие методы статической и динамической аналитики. Ключевыми показателями являются F1-меры обнаружения и раннее выявление злонамеренных активностей. Также было проведено эксперимент, показавший, что голосование между RL-агентами сильно повышает устойчивость системы к ложным срабатываниям. #### Значимость Предложенный подход может быть применен в различных сферах, где требуется высокая устойчивость к APTs, таких как финансовые системы, государственные системы и критически важные структуры. Система предоставляет преимущества в скорости реакции и адаптивности к новым видам атак. Развитие таких систем может существенно повысить защиту от сложных атак в цифровой среде, снизив риск безупречного проникновения злоумышленников. #### Выводы Результаты экспериментов подтверждают высокую эффективность предложенного подхода в обнаружении APT-атак. Будущие исследования будут сфокусированы на улучшении активного обучения, интеграции дополнительных источников данных и расширени

Abstract

Advanced Persistent Threats (APTs) represent a growing menace to modern digital infrastructure. Unlike traditional cyberattacks, APTs are stealthy, adaptive, and long-lasting, often bypassing signature-based detection systems. This paper introduces a novel framework for APT detection that unites deep learning, reinforcement learning (RL), and active learning into a cohesive, adaptive defense system. Our system combines auto-encoders for latent behavioral encoding with a multi-agent ensemble of RL-based defenders, each trained to distinguish between benign and malicious process behaviors. We identify a critical challenge in existing detection systems: their static nature and inability to adapt to evolving attack strategies. To this end, our architecture includes multiple RL agents (Q-Learning, PPO, DQN, adversarial defenders), each analyzing latent vectors generated by an auto-encoder. When any agent is uncertain about its decision, the system triggers an active learning loop to simulate expert feedback, thus refining decision boundaries. An ensemble voting mechanism, weighted by each agent's performance, ensures robust final predictions.

Ссылки и действия