Explainable Ensemble Learning for Graph-Based Malware Detection
2508.09801v1
cs.CR, cs.AI
2025-08-15
Авторы:
Hossein Shokouhinejad, Roozbeh Razavi-Far, Griffin Higgins, Ali A Ghorbani
Резюме на русском
#### Контекст
Граф-ориентированные подходы в машинном обучении становятся все более популярными для решения задач моделирования сложных структур данных, таких как бинарные файлы программ. Несмотря на заметную эффективность в обнаружении штурманских программ, существуют серьезные проблемы, связанные с прозрачностью и устойчивостью подобных моделей. Особенно критичны эти аспекты в области безопасности, где необходимо не только точно определить вредоносные программы, но и объяснить решение модели. Особенностью новых подходов является устойчивость к скрытым техникам замаскированности и их возможность объяснить свои выводы.
#### Метод
Мы предлагаем сочетание стекинговой модели и граф-наборных моделей для объяснения действий модели. Метод включает в себя формирование графов программных структур (например, CFG) из PE-файлов, применение нескольких моделей с разными видами пропускания сообщений, а также агрегацию результатов этих моделей с помощью мультиплейера с аттестацией. Для объяснения решений используется техника, основанная на весах внимания и интерпретируемых переходах в графах.
#### Результаты
Мы проводили эксперименты на большом датасете PE-файлов, сравнивая нашу модель с другими подходами в области графов и бинарного анализа. Наши результаты показывают, что стекинговая модель показывает высокую точность, а также обеспечивает понятные и интерпретируемые результаты для пользователей. Мы также проверили различные сценарии, включая обнаружение новых видов вредоносных программ, и показали устойчивость модели к изменениям вредоносных программ.
#### Значимость
Предложенная модель может использоваться в различных ситуациях, например, для мониторинга безопасности, анализа бинарных файлов и анализа функциональности программ. Наш подход предоставляет более надежную интерпретацию решений, что полезно для технических специалистов в области безопасности. Мы также отмечаем, что наша модель может быть применена для расширения технологии обучения наборов в других областях.
#### Выводы
Мы успешно разработали стекинговую модель для моделирования графа бинарных файлов и ее объяснения. Наш подход улучшает точность и устойчивость моделей в области безопасности. Будущие исследования будут ориентированы на улучшение устойчивости модели к новым видам вредоносных программ и дополнительное расширение применений этой модели.
Abstract
Malware detection in modern computing environments demands models that are
not only accurate but also interpretable and robust to evasive techniques.
Graph neural networks (GNNs) have shown promise in this domain by modeling rich
structural dependencies in graph-based program representations such as control
flow graphs (CFGs). However, single-model approaches may suffer from limited
generalization and lack interpretability, especially in high-stakes security
applications. In this paper, we propose a novel stacking ensemble framework for
graph-based malware detection and explanation. Our method dynamically extracts
CFGs from portable executable (PE) files and encodes their basic blocks through
a two-step embedding strategy. A set of diverse GNN base learners, each with a
distinct message-passing mechanism, is used to capture complementary behavioral
features. Their prediction outputs are aggregated by a meta-learner implemented
as an attention-based multilayer perceptron, which both classifies malware
instances and quantifies the contribution of each base model. To enhance
explainability, we introduce an ensemble-aware post-hoc explanation technique
that leverages edge-level importance scores generated by a GNN explainer and
fuses them using the learned attention weights. This produces interpretable,
model-agnostic explanations aligned with the final ensemble decision.
Experimental results demonstrate that our framework improves classification
performance while providing insightful interpretations of malware behavior.
Ссылки и действия
Дополнительные ресурсы: