BEACON: Behavioral Malware Classification with Large Language Model Embeddings and Deep Learning

2509.14519v1 cs.LG, cs.AI, cs.CR 2025-09-20
Авторы:

Wadduwage Shanika Perera, Haodi Jiang

Резюме на русском

## Контекст Современная кибербезопасность сталкивается с возрастающей сложностью вирусов и программ-шпионов (malware), которые применяют различные методы, такие как код обфускации, полиморфизм и другие способы эксплуатации. Традиционные методы анализа, такие как статический анализ кода, часто оказываются неэффективными против этих новых угроз. В этой статье предлагается BEACON — новая система, основанная на deep learning, которая использует технологии large language models (LLMs) для генерации контекстуальных векторных представлений из данных, полученных из песочниц (sandbox). Эти представления позволяют лучше отразить семантические и структурные особенности каждого образца, что делает BEACON эффективным для классификации малвирусов. ## Метод BEACON основывается на использовании LLMs для создания векторных представлений из поведенческих отчетов, полученных из песочниц. Эти модели обрабатывают поведение программы в реальном времени, извлекая структурные и семантические особенности. Далее, полученные представления обрабатываются с помощью 1D CNN (одномерной конволюционной нейронной сети), которая выделяет ключевые признаки и классифицирует образец. Эта архитектура обеспечивает высокую точность и устойчивость к разным видам шумов и эксплуатационных техник. ## Результаты На выборке Avast-CTU Public CAPE Dataset BEACON показал существенное преимущество перед существующими методами. Он достиг высокой точности классификации, менее чувствительности к выбросам и повышенной скорости распознавания. Эксперименты продемонстрировали, что использование LLM-based embeddings позволяет лучше отражать сложность поведения малвирусов, чем традиционные подходы. ## Значимость BEACON может применяться в различных областях кибербезопасности, включая мониторинг сетей, защиту от новых угроз и анализ поведения пользователей. Его преимущества заключаются в высокой точности, высокой скорости работы и устойчивости к эvasion-техникам. Это может существенно повысить уровень защиты от малвирусов и улучшить скорость реакции на новые угрозы. ## Выводы Результаты исследований показали, что BEACON является эффективным инструментом для классификации малвирусов. Он обеспечивает высокую точность и устойчивость к разным типам угроз. Будущие исследования будут сфокусированы на расширении функциональности BEACON, включая поддержку новых типов данных и улучшение его способности к адаптации к новым видам malware.

Abstract

Malware is becoming increasingly complex and widespread, making it essential to develop more effective and timely detection methods. Traditional static analysis often fails to defend against modern threats that employ code obfuscation, polymorphism, and other evasion techniques. In contrast, behavioral malware detection, which monitors runtime activities, provides a more reliable and context-aware solution. In this work, we propose BEACON, a novel deep learning framework that leverages large language models (LLMs) to generate dense, contextual embeddings from raw sandbox-generated behavior reports. These embeddings capture semantic and structural patterns of each sample and are processed by a one-dimensional convolutional neural network (1D CNN) for multi-class malware classification. Evaluated on the Avast-CTU Public CAPE Dataset, our framework consistently outperforms existing methods, highlighting the effectiveness of LLM-based behavioral embeddings and the overall design of BEACON for robust malware classification.

Ссылки и действия