Signal-Based Malware Classification Using 1D CNNs
2509.06548v2
cs.CR, cs.AI, cs.CV, cs.LG, I.2.6; K.6.5
2025-09-10
Авторы:
Jack Wilkie, Hanan Hindy, Ivan Andonovic, Christos Tachtatzis, Robert Atkinson
Резюме на русском
## Контекст
Современные угрозы в сфере кибербезопасности, такие как малвирь, требуют эффективных методов идентификации и классификации. Одним из ключевых вызовов является обход традиционных методов статического анализа, которые могут быть обойдены с помощью различных оболочек и обфускации. Динамический анализ, хотя и показывает высокую точность, требует больших ресурсов, что не допускает массового развертывания. Ранее проводились исследования, применяющие методы компьютерного зрения к 2D-изображениям, созданным из бинарных файлов. Однако этот подход приводит к значительной потере информации, включая зашумление и введение зависимостей между пикселями, которые не существуют в начальных данных.
## Метод
В данном исследовании предлагается новый подход к классификации малвирьа, основанный на преобразовании бинарных файлов в одномерные сигналы. Этот метод устраняет необходимость использования 2D-изображений, сохраняя большую часть оригинальной информации. Бинарные файлы конвертируются в 1D-сигналы без ненужных преобразований, используя формат вещественных чисел, что позволяет избежать зашумления и сохранить точность. Для классификации были использованы 1D-конvolutional neural networks (1D-CNNs), адаптированные из 2D-архитектур, таких как ResNet, с добавлением squeeze-and-excitation слоев для улучшения осознанности и эффективности.
## Результаты
Использовав MalNet dataset, были проведены эксперименты для классификации на уровнях бинарный, тип и семейство. 1D-CNNs показали высокую точность, достигнув F1-метрик 0.874, 0.503 и 0.507 соответственно. Эти результаты опережают предыдущие решения, основанные на 2D-изображениях. Особенно выдающимися были результаты при классификации на уровне бинарный и тип, где 1D-подход показал значительное превосходство.
## Значимость
Предложенный подход имеет широкие возможности применения в сфере безопасности информационных технологий. Он позволяет более эффективно обнаруживать и классифицировать новые виды малвирьа, даже с использованием обфускации. Благодаря использованию 1D-сигналов, данный метод экономит ресурсы и повышает точность. Его можно применять в системах мониторинга, антивирусной защите и анализа бинарных файлов.
## Выводы
Результаты этого исследования указывают на то, что использование 1D-сигналов для классификации малвирьа является более эффективным, чем традиционные 2D-подходы. Будущие исследования будут сфокусированы на расширении этой техники для работы с более сложными данными и улучш
Abstract
Malware classification is a contemporary and ongoing challenge in
cyber-security: modern obfuscation techniques are able to evade traditional
static analysis, while dynamic analysis is too resource intensive to be
deployed at a large scale. One prominent line of research addresses these
limitations by converting malware binaries into 2D images by heuristically
reshaping them into a 2D grid before resizing using Lanczos resampling. These
images can then be classified based on their textural information using
computer vision approaches. While this approach can detect obfuscated malware
more effectively than static analysis, the process of converting files into 2D
images results in significant information loss due to both quantisation noise,
caused by rounding to integer pixel values, and the introduction of 2D
dependencies which do not exist in the original data. This loss of signal
limits the classification performance of the downstream model. This work
addresses these weaknesses by instead resizing the files into 1D signals which
avoids the need for heuristic reshaping, and additionally these signals do not
suffer from quantisation noise due to being stored in a floating-point format.
It is shown that existing 2D CNN architectures can be readily adapted to
classify these 1D signals for improved performance. Furthermore, a bespoke 1D
convolutional neural network, based on the ResNet architecture and
squeeze-and-excitation layers, was developed to classify these signals and
evaluated on the MalNet dataset. It was found to achieve state-of-the-art
performance on binary, type, and family level classification with F1 scores of
0.874, 0.503, and 0.507, respectively, paving the way for future models to
operate on the proposed signal modality.