Contrastive Self-Supervised Network Intrusion Detection using Augmented Negative Pairs

2509.06550v1 cs.LG, cs.AI, cs.CR, cs.NI, I.2.6; K.6.5 2025-09-10
Авторы:

Jack Wilkie, Hanan Hindy, Christos Tachtatzis, Robert Atkinson

Резюме на русском

#### Контекст Сетевое обнаружение вторжений является критически важной задачей в области цифровой безопасности. Несмотря на то что модели машинного обучения, обученные с учителем, достигли высокого уровня производительности, их зависимость от больших массивов меток данных делает их неудобными для применения в многих реальных ситуациях. Методы аномалийного обнаружения, которые работают только с безопасным трафиком, часто страдают от высокого числа ложных срабатываний, что ограничивает их эффективность в применении. Недавно, самостоятельное обучение (self-supervised learning) продемонстрировало повышение качества работы при помощи снижения числа ложных срабатываний. Особенно заметные результаты показали модели самостоятельного обучения, основанные на контрастном самостоятельном обучении, которые уменьшают расстояние между похожими (положительными) представлениями безопасного трафика и, наоборот, увеличивают расстояние между разными (или отрицательными) представлениями. Однако существующие подходы генерируют положительные представления с помощью методов аугментации данных, а отрицательные представления определяются как другие сэмплы, не являющиеся положительными. В данной работе предлагается метод Contrastive Learning using Augmented Negative pairs (CLAN), где отрицательными представлениями являются генерируемые с помощью аугментации данных, а положительными являются другие безопасные сэмплы. Этот подход улучшает как точность классификации, так и эффективность работы модели после предобучения на безопасном трафике. #### Метод В предложенной работе используется архитектура самостоятельного обучения, основанная на контрастном методе обучения. Для получения положительных представлений данные безопасного трафика аугментируются, в то время как отрицательными представлениями служат генерируемые данные, аугментированные методами самостоятельного обучения. Это позволяет модели не только выучивать различия между положительными и отрицательными представлениями, но и улучшать их интерпретацию. Метод CLAN использует контрастную функцию в форме оптимизации потерь, чтобы минимизировать расстояние между положительными представлениями и максимизировать расстояние между отрицательными. Эта модель обучается на большом массиве данных безопасного трафика для получения высококачественных внутренних представлений, а затем переобучается на меньшем массиве меток данных для совершенствования классификации. #### Результаты В экспериментах использовались данные Lycos2017, которые содержат меток для обнаружения сетевых вторжений. Результаты показали, что предложенный подход CLAN при предобучении на безопасных данных показал значительно

Abstract

Network intrusion detection remains a critical challenge in cybersecurity. While supervised machine learning models achieve state-of-the-art performance, their reliance on large labelled datasets makes them impractical for many real-world applications. Anomaly detection methods, which train exclusively on benign traffic to identify malicious activity, suffer from high false positive rates, limiting their usability. Recently, self-supervised learning techniques have demonstrated improved performance with lower false positive rates by learning discriminative latent representations of benign traffic. In particular, contrastive self-supervised models achieve this by minimizing the distance between similar (positive) views of benign traffic while maximizing it between dissimilar (negative) views. Existing approaches generate positive views through data augmentation and treat other samples as negative. In contrast, this work introduces Contrastive Learning using Augmented Negative pairs (CLAN), a novel paradigm for network intrusion detection where augmented samples are treated as negative views - representing potentially malicious distributions - while other benign samples serve as positive views. This approach enhances both classification accuracy and inference efficiency after pretraining on benign traffic. Experimental evaluation on the Lycos2017 dataset demonstrates that the proposed method surpasses existing self-supervised and anomaly detection techniques in a binary classification task. Furthermore, when fine-tuned on a limited labelled dataset, the proposed approach achieves superior multi-class classification performance compared to existing self-supervised models.

Ссылки и действия