Hypergraph-Guided Regex Filter Synthesis for Event-Based Anomaly Detection

2509.06911v1 cs.SE, cs.LG 2025-09-10
Авторы:

Margarida Ferreira, Victor Nicolet, Luan Pham, Joey Dodds, Daniel Kroening, Ines Lynce, Ruben Martins

Резюме на русском

## Контекст Область исследования фокусируется на автоматическом синтезе регулярных выражений для обнаружения аномалий в событийных данных. Традиционные методы часто страдают от недостатка прозрачности и эффективности. Эти проблемы мотивируют развитие методов, которые обеспечивают достоверность и легкость интерпретации результатов. Наличие эффективных инструментов для детекции аномалий в событийных системах играет ключевую роль в обеспечении безопасности, мониторинга и анализа телеметрии в системах с высоким количеством событий. ## Метод Предлагаемый подход, HyGLAD, основывается на использовании гиперграфов для построения интерпретируемых множеств паттернов, моделирующих событийные данные. Алгоритм строит эквивалентные классы сущностей с похожим поведением и синтезирует регулярные выражения, охватывающие значения этих классов. Этот гиперграфический подход позволяет изобразить структуру данных и получить прозрачные регулярные выражения. Это значительно упрощает понимание и анализ обнаруженных аномалий. ## Результаты HyGLAD был проверен на пяти реальных данными системах, сравниваясь с семью методами нейросетевой детекции аномалий. Результаты показали, что HyGLAD обеспечивает более высокую точность (1.2x) и покрытие (1.3x) в сравнении с остальными методами. Он работает один реже чем глубокие нейросети (на одном ЦП, в отличие от GPU), что демонстрирует эффективность в обработке и требования к ресурсам. ## Значимость Основные применения HyGLAD включают детекцию аномалий в телеметрических данных, мониторинг безопасности, анализ трафика и систем мониторинга в реальном времени. Его наиболее выдающееся преимущество заключается в прозрачности результатов, что делает обнаружение аномалий легко интерпретируемым для людей. Это открывает новые возможности для быстрого анализа и реагирования на нестандартные ситуации. ## Выводы Результаты HyGLAD показывают, что он превосходит существующие методы в точности и эффективности детекции аномалий в событийных данных. Будущие исследования будут фокусироваться на расширении моделей для более сложных ситуаций и интеграции с другими моделями для обеспечения функционального многогранности.

Abstract

We propose HyGLAD, a novel algorithm that automatically builds a set of interpretable patterns that model event data. These patterns can then be used to detect event-based anomalies in a stationary system, where any deviation from past behavior may indicate malicious activity. The algorithm infers equivalence classes of entities with similar behavior observed from the events, and then builds regular expressions that capture the values of those entities. As opposed to deep-learning approaches, the regular expressions are directly interpretable, which also translates to interpretable anomalies. We evaluate HyGLAD against all 7 unsupervised anomaly detection methods from DeepOD on five datasets from real-world systems. The experimental results show that on average HyGLAD outperforms existing deep-learning methods while being an order of magnitude more efficient in training and inference (single CPU vs GPU). Precision improved by 1.2x and recall by 1.3x compared to the second-best baseline.

Ссылки и действия