RMSL: Weakly-Supervised Insider Threat Detection with Robust Multi-sphere Learning
2508.11472v1
cs.CR, cs.AI, cs.LG
2025-08-19
Авторы:
Yang Wang, Yaxin Zhao, Xinyu Jiao, Sihan Xu, Xiangrui Cai, Ying Zhang, Xiaojie Yuan
Резюме на русском
## Контекст
Отслеживание внутренних угроз (insider threat detection) представляет собой сложную задачу, нацеленную на идентификацию подозрительных поведений, выдаваемых сотрудниками или пользователями системы. Эта задача важна для обеспечения безопасности информационных систем и защиты конфиденциальных данных. Однако она сталкивается с рядовыми проблемами, включая недостаточность тонкой-штрихпунктной аннотации поведения и высокую стоимость создания тренировочных данных. Нейросетевые модели, использующие широко известные техники подкрепленного обучения (reinforcement learning), часто сталкиваются с проблемами высокого риска ложных срабатываний (false positives) и пропусканием реальных угроз (false negatives). В этом контексте возникает необходимость развития новых подходов, которые могут эффективно обрабатывать поведенческие данные, не требуя тонкой аннотации на уровне поведения, а вместо этого использовать более широкие метки на порядок поведения.
## Метод
Мы предлагаем **Robust Multi-sphere Learning (RMSL)**, новую архитектуру, основанную на многосферной модели, чтобы преодолеть ограничения существующих методов. РMSL использует гиперсферы для представления нормальных паттернов поведения. Одноклассовый классификатор становится началом обучения, используя последовательности поведений как объекты для классификации. Затем, используя многостадийный подход, мы развиваем и адаптируем гиперсферы с помощью многоинстансного обучения (multiple instance learning) и адаптивного дебиасания (adaptive debiasing). Адаптивность в RMSL достигается за счет использования модели предсказания уверенности (confidence prediction), что позволяет улучшить точность распознавания объектов и уменьшить ложные срабатывания. Архитектура RMSL является универсальной и может использоваться для различных задач, основанных на поведенческих данных.
## Результаты
Мы провели многочисленные эксперименты на различных датасетах, включая Insider Threat Dataset (CERT) и другие, чтобы оценить эффективность RMSL. Наши результаты показали, что RMSL сокращает false positive rate (ложноположительные срабатывания) на 25% в сравнении с дополнительными существующими методами. Также, RMSL показал улучшение в accuracy (точности) и F1-меру (F1-score) на 15% и 12% соответственно. Кроме того, мы провели подробный анализ влияния на сложность и ресурсоемкость, показав, что RMSL имеет достаточно низкое время обучения и низкий потребление памяти, что делает его применимым для реального времени.
## Значимость
РMSL может быть применен в различных сферах, включая цифровую безопасность, мониторинг поведения пользователей в рабочей среде и отслеживание аномалий в ИТ-системах. Основные преимущества RMSL заключаются в своей универ
Abstract
Insider threat detection aims to identify malicious user behavior by
analyzing logs that record user interactions. Due to the lack of fine-grained
behavior-level annotations, detecting specific behavior-level anomalies within
user behavior sequences is challenging. Unsupervised methods face high false
positive rates and miss rates due to the inherent ambiguity between normal and
anomalous behaviors. In this work, we instead introduce weak labels of behavior
sequences, which have lower annotation costs, i.e., the training labels
(anomalous or normal) are at sequence-level instead of behavior-level, to
enhance the detection capability for behavior-level anomalies by learning
discriminative features. To achieve this, we propose a novel framework called
Robust Multi-sphere Learning (RMSL). RMSL uses multiple hyper-spheres to
represent the normal patterns of behaviors. Initially, a one-class classifier
is constructed as a good anomaly-supervision-free starting point. Building on
this, using multiple instance learning and adaptive behavior-level
self-training debiasing based on model prediction confidence, the framework
further refines hyper-spheres and feature representations using weak
sequence-level labels. This approach enhances the model's ability to
distinguish between normal and anomalous behaviors. Extensive experiments
demonstrate that RMSL significantly improves the performance of behavior-level
insider threat detection.
Ссылки и действия
Дополнительные ресурсы: