Adversarial Augmentation and Active Sampling for Robust Cyber Anomaly Detection

2509.04999v1 cs.CR, cs.AI, cs.CY, cs.LG 2025-09-09
Авторы:

Sidahmed Benabderrahmane, Talal Rahwan

Резюме на русском

## Контекст Advanced Persistent Threats (APTs) являются одной из наиболее опасных угроз в сфере кибербезопасности. Они характеризуются своим незаметным и продолжительным характером, что делает их сложнее обнаружить. Традиционные супервизированные методы обучения требуют больших объемов меток данных, что часто отсутствует в реальных условиях. Такая нехватка данных с метками препятствует эффективному обучению моделей и снижению затрат на ручную маркировку. Это ставит перед исследователями задачу создания методов, которые бы эффективно обучались с минимальным количеством меток. Наша работа призвана решить эту проблему, объединяя технологии автокодирования и активного обучения для улучшения обнаружения APT. ## Метод Мы предлагаем архитектуру Attention Adversarial Dual AutoEncoder (AAD-AE) для аномалийного обнаружения, которая использует активное обучение для постоянного улучшения модели. Автокодировщик с аттенцией обнаруживает аномалии, а активное обучение создает запросы по меткам только для неоднозначных примеров. Это позволяет сократить затраты на метки, не ухудшая качество обучения. Мы также вводим технику адверсарского аугментации, которая генерирует поддельные примеры, чтобы лучше обучить модель к различным сценариям атак. Модель обучается по нескольким системным данным (Linux, Android, BSD, Windows), что позволяет обрабатывать разнообразные APT-атаки. ## Результаты Метод был проверен на реальных данных DARPA Transparent Computing program, где APT-атаки составляют всего 0.004% от общего объема данных. Мы проводили эксперименты в двух сценариях атак и сравнивали результаты с тремя современными аналогами. Активное обучение показало значительные улучшения в обнаружении APT по сравнению с другими методами. Мы также показали, что адверсарская аугментация существенно повышает точность обнаружения, даже при нехватке данных. ## Значимость Наш подход может быть применен в различных ситуациях, где данные меток ограниченны, но необходимо обнаруживать редкие и сложные аномалии. Он эффективен для различных системных платформ и может быть использован для расширения существующих методов кибербезопасности. Это включает в себя наблюдение за системным поведением, обнаружение вредоносной активности малого размера и повышение уровня общей кибербезопасности. ## Выводы Мы доказали, что наш подход не только эффективно улучшает обнаружение APT, но и экономит ресурсы на ручной маркировке данных. Будущие исследования будут сконцентрированы на расширении модели на другие виды аномального поведения и улучшении ее точности на более больших данных.

Abstract

Advanced Persistent Threats (APTs) present a considerable challenge to cybersecurity due to their stealthy, long-duration nature. Traditional supervised learning methods typically require large amounts of labeled data, which is often scarce in real-world scenarios. This paper introduces a novel approach that combines AutoEncoders for anomaly detection with active learning to iteratively enhance APT detection. By selectively querying an oracle for labels on uncertain or ambiguous samples, our method reduces labeling costs while improving detection accuracy, enabling the model to effectively learn with minimal data and reduce reliance on extensive manual labeling. We present a comprehensive formulation of the Attention Adversarial Dual AutoEncoder-based anomaly detection framework and demonstrate how the active learning loop progressively enhances the model's performance. The framework is evaluated on real-world, imbalanced provenance trace data from the DARPA Transparent Computing program, where APT-like attacks account for just 0.004\% of the data. The datasets, which cover multiple operating systems including Android, Linux, BSD, and Windows, are tested in two attack scenarios. The results show substantial improvements in detection rates during active learning, outperforming existing methods.

Ссылки и действия