What Does Normal Even Mean? Evaluating Benign Traffic in Intrusion Detection Datasets
2509.09564v1
cs.CR, cs.LG
2025-09-13
Авторы:
Meghan Wilkinson, Robert H Thomson
Резюме на русском
#### Контекст
Современные сетевые системы подвержены неограниченным угрозам в сфере безопасности, что делает развитие эффективных методов обнаружения вторжений критически важным. Одной из основных проблем в этой области является то, что большинство наборов данных, используемых для обучения сетевых систем обнаружения вторжений (IDS), содержат большую классификацию "бенгального" трафика, которая объединяет все неатакующий трафик в один большой класс. Это предположение ограничивает возможность машинного обучения, так как неконкретность данных может привести к снижению точности и разрешаемости. Этот аспект становится важным для изучения, чтобы выявить существующие подклассы в трафике, которые могут улучшить точность распознавания и увеличить обобщающую способность сетевых IDS.
#### Метод
Для изучения структуры бенгального трафика в сетевых IDS-датасетах (NSL-KDD, UNSW-NB15, CIC-IDS 2017), проводится расширенный анализ с использованием нескольких неуправляемых методов кластеризации. Такие алгоритмы, как HDBSCAN и Mean Shift Clustering, используются для выявления подклассов в трафике "бенгального" трафика. Кроме того, данные разделяются по меткам времени и методам сетевой активности, чтобы определить логические семантические отношения между классами. Это позволяет выявить наличие внутриклассовых отличий и их потенциального вклада в обучение IDS-систем.
#### Результаты
Результаты кластеризации показывают, что внутри бенгального трафика существуют многочисленные подклассы, поддерживающие различные сетевые действия. Например, среди кластеров было выявлено трафиковое поведение, связанное с различными типами запросов, потоком данных и приложений. Эти кластеры отличаются по структуре и характеру данных, что позволяет улучшить разрешаемость IDS-систем. Также были выявлены вклады различных технологий, таких как HTTP, FTP и DNS, в различные кластеры, что позволяет выделить их роль в структуре трафика.
#### Значимость
Исследования имеют действенное применение в сфере сетевой безопасности, позволяя улучшить точность и детализацию распознавания вторжений. Использование неуправляемых кластеризаций позволяет выявить подклассы в бенгальном трафике, что повышает разрешаемость и улучшает контекстные оценки. Эти результаты могут повлиять на развитие более точных и адаптивных методов для обучения идентификации атак в IDS-системах. Это также открывает пути для создания более сложных моделей многоклассовой классификации, которые учитывают внутреннюю структуру трафика.
#### Выводы
Изучение внутренней ст
Abstract
Supervised machine learning techniques rely on labeled data to achieve high
task performance, but this requires the labels to capture some meaningful
differences in the underlying data structure. For training network intrusion
detection algorithms, most datasets contain a series of attack classes and a
single large benign class which captures all non-attack network traffic. A
review of intrusion detection papers and guides that explicitly state their
data preprocessing steps identified that the majority took the labeled
categories of the dataset at face value when training their algorithms. The
present paper evaluates the structure of benign traffic in several common
intrusion detection datasets (NSL-KDD, UNSW-NB15, and CIC-IDS 2017) and
determines whether there are meaningful sub-categories within this traffic
which may improve overall multi-classification performance using common machine
learning techniques. We present an overview of some unsupervised clustering
techniques (e.g., HDBSCAN, Mean Shift Clustering) and show how they
differentially cluster the benign traffic space.
Ссылки и действия
Дополнительные ресурсы: