Adversarial Augmentation and Active Sampling for Robust Cyber Anomaly Detection
2509.04999v1
cs.CR, cs.AI, cs.CY, cs.LG
2025-09-09
Авторы:
Sidahmed Benabderrahmane, Talal Rahwan
Резюме на русском
## Контекст
Advanced Persistent Threats (APTs) являются одной из наиболее опасных угроз в сфере кибербезопасности. Они характеризуются своим незаметным и продолжительным характером, что делает их сложнее обнаружить. Традиционные супервизированные методы обучения требуют больших объемов меток данных, что часто отсутствует в реальных условиях. Такая нехватка данных с метками препятствует эффективному обучению моделей и снижению затрат на ручную маркировку. Это ставит перед исследователями задачу создания методов, которые бы эффективно обучались с минимальным количеством меток. Наша работа призвана решить эту проблему, объединяя технологии автокодирования и активного обучения для улучшения обнаружения APT.
## Метод
Мы предлагаем архитектуру Attention Adversarial Dual AutoEncoder (AAD-AE) для аномалийного обнаружения, которая использует активное обучение для постоянного улучшения модели. Автокодировщик с аттенцией обнаруживает аномалии, а активное обучение создает запросы по меткам только для неоднозначных примеров. Это позволяет сократить затраты на метки, не ухудшая качество обучения. Мы также вводим технику адверсарского аугментации, которая генерирует поддельные примеры, чтобы лучше обучить модель к различным сценариям атак. Модель обучается по нескольким системным данным (Linux, Android, BSD, Windows), что позволяет обрабатывать разнообразные APT-атаки.
## Результаты
Метод был проверен на реальных данных DARPA Transparent Computing program, где APT-атаки составляют всего 0.004% от общего объема данных. Мы проводили эксперименты в двух сценариях атак и сравнивали результаты с тремя современными аналогами. Активное обучение показало значительные улучшения в обнаружении APT по сравнению с другими методами. Мы также показали, что адверсарская аугментация существенно повышает точность обнаружения, даже при нехватке данных.
## Значимость
Наш подход может быть применен в различных ситуациях, где данные меток ограниченны, но необходимо обнаруживать редкие и сложные аномалии. Он эффективен для различных системных платформ и может быть использован для расширения существующих методов кибербезопасности. Это включает в себя наблюдение за системным поведением, обнаружение вредоносной активности малого размера и повышение уровня общей кибербезопасности.
## Выводы
Мы доказали, что наш подход не только эффективно улучшает обнаружение APT, но и экономит ресурсы на ручной маркировке данных. Будущие исследования будут сконцентрированы на расширении модели на другие виды аномального поведения и улучшении ее точности на более больших данных.
Abstract
Advanced Persistent Threats (APTs) present a considerable challenge to
cybersecurity due to their stealthy, long-duration nature. Traditional
supervised learning methods typically require large amounts of labeled data,
which is often scarce in real-world scenarios. This paper introduces a novel
approach that combines AutoEncoders for anomaly detection with active learning
to iteratively enhance APT detection. By selectively querying an oracle for
labels on uncertain or ambiguous samples, our method reduces labeling costs
while improving detection accuracy, enabling the model to effectively learn
with minimal data and reduce reliance on extensive manual labeling. We present
a comprehensive formulation of the Attention Adversarial Dual AutoEncoder-based
anomaly detection framework and demonstrate how the active learning loop
progressively enhances the model's performance. The framework is evaluated on
real-world, imbalanced provenance trace data from the DARPA Transparent
Computing program, where APT-like attacks account for just 0.004\% of the data.
The datasets, which cover multiple operating systems including Android, Linux,
BSD, and Windows, are tested in two attack scenarios. The results show
substantial improvements in detection rates during active learning,
outperforming existing methods.