Contrastive Self-Supervised Network Intrusion Detection using Augmented Negative Pairs
2509.06550v1
cs.LG, cs.AI, cs.CR, cs.NI, I.2.6; K.6.5
2025-09-10
Авторы:
Jack Wilkie, Hanan Hindy, Christos Tachtatzis, Robert Atkinson
Резюме на русском
#### Контекст
Сетевое обнаружение вторжений является критически важной задачей в области цифровой безопасности. Несмотря на то что модели машинного обучения, обученные с учителем, достигли высокого уровня производительности, их зависимость от больших массивов меток данных делает их неудобными для применения в многих реальных ситуациях. Методы аномалийного обнаружения, которые работают только с безопасным трафиком, часто страдают от высокого числа ложных срабатываний, что ограничивает их эффективность в применении. Недавно, самостоятельное обучение (self-supervised learning) продемонстрировало повышение качества работы при помощи снижения числа ложных срабатываний. Особенно заметные результаты показали модели самостоятельного обучения, основанные на контрастном самостоятельном обучении, которые уменьшают расстояние между похожими (положительными) представлениями безопасного трафика и, наоборот, увеличивают расстояние между разными (или отрицательными) представлениями. Однако существующие подходы генерируют положительные представления с помощью методов аугментации данных, а отрицательные представления определяются как другие сэмплы, не являющиеся положительными. В данной работе предлагается метод Contrastive Learning using Augmented Negative pairs (CLAN), где отрицательными представлениями являются генерируемые с помощью аугментации данных, а положительными являются другие безопасные сэмплы. Этот подход улучшает как точность классификации, так и эффективность работы модели после предобучения на безопасном трафике.
#### Метод
В предложенной работе используется архитектура самостоятельного обучения, основанная на контрастном методе обучения. Для получения положительных представлений данные безопасного трафика аугментируются, в то время как отрицательными представлениями служат генерируемые данные, аугментированные методами самостоятельного обучения. Это позволяет модели не только выучивать различия между положительными и отрицательными представлениями, но и улучшать их интерпретацию. Метод CLAN использует контрастную функцию в форме оптимизации потерь, чтобы минимизировать расстояние между положительными представлениями и максимизировать расстояние между отрицательными. Эта модель обучается на большом массиве данных безопасного трафика для получения высококачественных внутренних представлений, а затем переобучается на меньшем массиве меток данных для совершенствования классификации.
#### Результаты
В экспериментах использовались данные Lycos2017, которые содержат меток для обнаружения сетевых вторжений. Результаты показали, что предложенный подход CLAN при предобучении на безопасных данных показал значительно
Abstract
Network intrusion detection remains a critical challenge in cybersecurity.
While supervised machine learning models achieve state-of-the-art performance,
their reliance on large labelled datasets makes them impractical for many
real-world applications. Anomaly detection methods, which train exclusively on
benign traffic to identify malicious activity, suffer from high false positive
rates, limiting their usability. Recently, self-supervised learning techniques
have demonstrated improved performance with lower false positive rates by
learning discriminative latent representations of benign traffic. In
particular, contrastive self-supervised models achieve this by minimizing the
distance between similar (positive) views of benign traffic while maximizing it
between dissimilar (negative) views. Existing approaches generate positive
views through data augmentation and treat other samples as negative. In
contrast, this work introduces Contrastive Learning using Augmented Negative
pairs (CLAN), a novel paradigm for network intrusion detection where augmented
samples are treated as negative views - representing potentially malicious
distributions - while other benign samples serve as positive views. This
approach enhances both classification accuracy and inference efficiency after
pretraining on benign traffic. Experimental evaluation on the Lycos2017 dataset
demonstrates that the proposed method surpasses existing self-supervised and
anomaly detection techniques in a binary classification task. Furthermore, when
fine-tuned on a limited labelled dataset, the proposed approach achieves
superior multi-class classification performance compared to existing
self-supervised models.