Metric Matters: A Formal Evaluation of Similarity Measures in Active Learning for Cyber Threat Intelligence
2508.19019v1
cs.LG, cs.AI, cs.NE
2025-08-28
Авторы:
Sidahmed Benabderrahmane, Talal Rahwan
Резюме на русском
## Контекст
Active Learning (AL) является эффективным подходом для обучения моделей с минимальным количеством машинно-подтвержденных данных. В области Cyber Threat Intelligence (CTI), где данные часто классифицируются как "редкие и нестабильные", AL может значительно повысить точность моделей, оптимизировав выбор обучающих данных. Однако, APTs (Advanced Persistent Threats), известные своей скрытостью и необычным поведением, создают серьезные вызовы для систем обнаружения аномалий. До Top-2021, 95% всех потерь от APTs были незамеченными. Эти характеристики данных, включая высокую несбалансированность классов, делают стандартные подходы AL менее эффективными. Наша мотивация заключается в разработке метода, который адаптируется к этим уникальным характеристикам данных, улучшая конвергенцию и точность моделей.
## Метод
Мы предлагаем прототип AL-based anomaly detection framework, который использует Attention-Based Autoencoder для feature-space similarity search. Этот подход использует распределенные представления для определения "normal-like" и "anomaly-like" входных значений, позволяя модели учиться с меньшим количеством данных. Мы используем функции similarity search, такие как Cosine Similarity, Euclidean Distance, и Manhattan Distance, для оценки их влияния на выбор экземпляров и эффективность предсказания. Эта архитектура обеспечивает iterative refinement decision space, позволяя модели быстрее обнаруживать аномалии и сохранять высокую точность даже с ограниченными данными.
## Результаты
Мы проводим эксперименты на трех различных наборах данных: DARPA Transparent Computing APT traces, CICIDS, и SIFT. Мы сравниваем различные similarity measures, такие как Cosine Similarity и Manhattan Distance, и оцениваем их влияние на конвергенцию модели и точность обнаружения аномалий. Наши результаты показали, что Cosine Similarity обеспечивает более быструю конвергенцию, но Manhattan Distance демонстрирует высокую точность в обнаружении аномалий в ситуациях с высокой несбалансированностью классов. Эти результаты помогают понять, как выбор similarity measure может сильно повлиять на эффективность AL-based моделей в CTI.
## Значимость
Наши результаты имеют значительное значение для области CTI, где сильный выбор similarity measure может значительно повысить эффективность моделей. Мы предлагаем actionable insights для выбора similarity functions в AL pipelines, которые могут быть использованы для борьбы с APTs и другими классами аномалий. Этот подход показывает потенциал для улучшения label efficiency и обнаружения аномалий в различных CTI-системах.
## Выводы
Наше исследование показывает, что выбор similarity measure в AL-based моделях имеет существенное влияние на эффективность обучения и обнаружение аномалий в CTI. Мы предлагаем более глубокое понимание того, как различные similarity measures могут быть использованы в AL pipelines, чтобы повысить точность и конвергенцию. В будущем, мы планируем расширить эти исследования, оценивая другие модели и similarity measures, чтобы улучшить наш подхо
Abstract
Advanced Persistent Threats (APTs) pose a severe challenge to cyber defense
due to their stealthy behavior and the extreme class imbalance inherent in
detection datasets. To address these issues, we propose a novel active
learning-based anomaly detection framework that leverages similarity search to
iteratively refine the decision space. Built upon an Attention-Based
Autoencoder, our approach uses feature-space similarity to identify normal-like
and anomaly-like instances, thereby enhancing model robustness with minimal
oracle supervision. Crucially, we perform a formal evaluation of various
similarity measures to understand their influence on sample selection and
anomaly ranking effectiveness. Through experiments on diverse datasets,
including DARPA Transparent Computing APT traces, we demonstrate that the
choice of similarity metric significantly impacts model convergence, anomaly
detection accuracy, and label efficiency. Our results offer actionable insights
for selecting similarity functions in active learning pipelines tailored for
threat intelligence and cyber defense.
Ссылки и действия
Дополнительные ресурсы: