Demystifying the Role of Rule-based Detection in AI Systems for Windows Malware Detection

2508.09652v1 cs.CR, cs.AI 2025-08-15
Авторы:

Andrea Ponte, Luca Demetrio, Luca Oneto, Ivan Tesfai Ogbu, Battista Biggio, Fabio Roli

Резюме на русском

## Контекст В современной информатике возрастает важность использования искусственного интеллекта (AI) для обнаружения вредоносных программ (malware), особенно в Windows-системах. Однако существуют проблемы в объединении традиционных методов обнаружения, основанных на правилах (rule-based detection), и новых методов, основанных на машинном обучении (machine learning). Эти два подхода часто развиваются и используются в изоляции, что бесполезно, поскольку они могут снизить эффективность систем обнаружения. Это делает необходимым исследование роли правил в AI-системах и выявление возможностей для их улучшения. ## Метод Исследование проводится с использованием различных методов обнаружения вредоносных программ, включая модели машинного обучения и традиционные правила. Авторы создали комплексную базу данных для тестирования, включающую обучающие и тестовые данные. Использовалась методика сравнения моделей, обученных на разных наборах данных, включая ситуации, когда правила использовались в тренировочном процессе, и когда исключены. Эксперименты проводились с различными вариантами настройки параметров, чтобы определить влияние правил на обнаружение вредоносных программ. ## Результаты Исследование показало, что включение правил в тренировочный процесс моделей машинного обучения может снизить чувствительность к хорошо известным видам вредоносных программ. Однако это может привести к увеличению числа ложных срабатываний (falses positives). Тем не менее, такой подход увеличивает устойчивость системы к новым видам вредоносных программ и к временным изменениям в данных (temporal drift). Также был выявлен фиксированный нижний порог для ложных срабатываний, который зависит от выбора правил. ## Значимость Результаты имеют значение для развития AI-системы, улучшающих защиту от вредоносных программ. Этот подход может быть применен в защите корпоративных и домашних систем, а также для защиты от новых, неизвестных видов вредоносных программ. Одной из основных преимуществ является улучшенная устойчивость к новым угрозам, однако это имеет сторону отрицательного эффекта — увеличенное число ложных срабатываний. ## Выводы Результаты исследования показали, что включение правил в тренировочный процесс моделей может улучшить обнаружение вредоносных программ, особенно в условиях временных изменений данных. Однако требуется дополнительная работа, чтобы уменьшить ложные срабатывания и улучшить выбор правил. Будущие исследования должны рассмотреть включение динамического анализа в AI-системы для улучшения их устойчивости и эффективности.

Abstract

Malware detection increasingly relies on AI systems that integrate signature-based detection with machine learning. However, these components are typically developed and combined in isolation, missing opportunities to reduce data complexity and strengthen defenses against adversarial EXEmples, carefully crafted programs designed to evade detection. Hence, in this work we investigate the influence that signature-based detection exerts on model training, when they are included inside the training pipeline. Specifically, we compare models trained on a comprehensive dataset with an AI system whose machine learning component is trained solely on samples not already flagged by signatures. Our results demonstrate improved robustness to both adversarial EXEmples and temporal data drift, although this comes at the cost of a fixed lower bound on false positives, driven by suboptimal rule selection. We conclude by discussing these limitations and outlining how future research could extend AI-based malware detection to include dynamic analysis, thereby further enhancing system resilience.

Ссылки и действия