What Does Normal Even Mean? Evaluating Benign Traffic in Intrusion Detection Datasets

2509.09564v1 cs.CR, cs.LG 2025-09-13

Авторы:

Meghan Wilkinson, Robert H Thomson

Резюме на русском

#### Контекст Современные сетевые системы подвержены неограниченным угрозам в сфере безопасности, что делает развитие эффективных методов обнаружения вторжений критически важным. Одной из основных проблем в этой области является то, что большинство наборов данных, используемых для обучения сетевых систем обнаружения вторжений (IDS), содержат большую классификацию "бенгального" трафика, которая объединяет все неатакующий трафик в один большой класс. Это предположение ограничивает возможность машинного обучения, так как неконкретность данных может привести к снижению точности и разрешаемости. Этот аспект становится важным для изучения, чтобы выявить существующие подклассы в трафике, которые могут улучшить точность распознавания и увеличить обобщающую способность сетевых IDS. #### Метод Для изучения структуры бенгального трафика в сетевых IDS-датасетах (NSL-KDD, UNSW-NB15, CIC-IDS 2017), проводится расширенный анализ с использованием нескольких неуправляемых методов кластеризации. Такие алгоритмы, как HDBSCAN и Mean Shift Clustering, используются для выявления подклассов в трафике "бенгального" трафика. Кроме того, данные разделяются по меткам времени и методам сетевой активности, чтобы определить логические семантические отношения между классами. Это позволяет выявить наличие внутриклассовых отличий и их потенциального вклада в обучение IDS-систем. #### Результаты Результаты кластеризации показывают, что внутри бенгального трафика существуют многочисленные подклассы, поддерживающие различные сетевые действия. Например, среди кластеров было выявлено трафиковое поведение, связанное с различными типами запросов, потоком данных и приложений. Эти кластеры отличаются по структуре и характеру данных, что позволяет улучшить разрешаемость IDS-систем. Также были выявлены вклады различных технологий, таких как HTTP, FTP и DNS, в различные кластеры, что позволяет выделить их роль в структуре трафика. #### Значимость Исследования имеют действенное применение в сфере сетевой безопасности, позволяя улучшить точность и детализацию распознавания вторжений. Использование неуправляемых кластеризаций позволяет выявить подклассы в бенгальном трафике, что повышает разрешаемость и улучшает контекстные оценки. Эти результаты могут повлиять на развитие более точных и адаптивных методов для обучения идентификации атак в IDS-системах. Это также открывает пути для создания более сложных моделей многоклассовой классификации, которые учитывают внутреннюю структуру трафика. #### Выводы Изучение внутренней ст

Abstract

Supervised machine learning techniques rely on labeled data to achieve high task performance, but this requires the labels to capture some meaningful differences in the underlying data structure. For training network intrusion detection algorithms, most datasets contain a series of attack classes and a single large benign class which captures all non-attack network traffic. A review of intrusion detection papers and guides that explicitly state their data preprocessing steps identified that the majority took the labeled categories of the dataset at face value when training their algorithms. The present paper evaluates the structure of benign traffic in several common intrusion detection datasets (NSL-KDD, UNSW-NB15, and CIC-IDS 2017) and determines whether there are meaningful sub-categories within this traffic which may improve overall multi-classification performance using common machine learning techniques. We present an overview of some unsupervised clustering techniques (e.g., HDBSCAN, Mean Shift Clustering) and show how they differentially cluster the benign traffic space.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

What Does Normal Even Mean? Evaluating Benign Traffic in Intrusion Detection Datasets

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

One Detector Fits All: Robust and Adaptive Detection of Malicious Packages from ...

Mitigating Indirect Prompt Injection via Instruction-Following Intent Analysis

A Hybrid Deep Learning and Anomaly Detection Framework for Real-Time Malicious U...

Leveraging Large Language Models to Bridge On-chain and Off-chain Transparency i...

Real-PGDN: A Two-level Classification Method for Full-Process Recognition of New...

Навигация