Signal-Based Malware Classification Using 1D CNNs

2509.06548v2 cs.CR, cs.AI, cs.CV, cs.LG, I.2.6; K.6.5 2025-09-10
Авторы:

Jack Wilkie, Hanan Hindy, Ivan Andonovic, Christos Tachtatzis, Robert Atkinson

Резюме на русском

## Контекст Современные угрозы в сфере кибербезопасности, такие как малвирь, требуют эффективных методов идентификации и классификации. Одним из ключевых вызовов является обход традиционных методов статического анализа, которые могут быть обойдены с помощью различных оболочек и обфускации. Динамический анализ, хотя и показывает высокую точность, требует больших ресурсов, что не допускает массового развертывания. Ранее проводились исследования, применяющие методы компьютерного зрения к 2D-изображениям, созданным из бинарных файлов. Однако этот подход приводит к значительной потере информации, включая зашумление и введение зависимостей между пикселями, которые не существуют в начальных данных. ## Метод В данном исследовании предлагается новый подход к классификации малвирьа, основанный на преобразовании бинарных файлов в одномерные сигналы. Этот метод устраняет необходимость использования 2D-изображений, сохраняя большую часть оригинальной информации. Бинарные файлы конвертируются в 1D-сигналы без ненужных преобразований, используя формат вещественных чисел, что позволяет избежать зашумления и сохранить точность. Для классификации были использованы 1D-конvolutional neural networks (1D-CNNs), адаптированные из 2D-архитектур, таких как ResNet, с добавлением squeeze-and-excitation слоев для улучшения осознанности и эффективности. ## Результаты Использовав MalNet dataset, были проведены эксперименты для классификации на уровнях бинарный, тип и семейство. 1D-CNNs показали высокую точность, достигнув F1-метрик 0.874, 0.503 и 0.507 соответственно. Эти результаты опережают предыдущие решения, основанные на 2D-изображениях. Особенно выдающимися были результаты при классификации на уровне бинарный и тип, где 1D-подход показал значительное превосходство. ## Значимость Предложенный подход имеет широкие возможности применения в сфере безопасности информационных технологий. Он позволяет более эффективно обнаруживать и классифицировать новые виды малвирьа, даже с использованием обфускации. Благодаря использованию 1D-сигналов, данный метод экономит ресурсы и повышает точность. Его можно применять в системах мониторинга, антивирусной защите и анализа бинарных файлов. ## Выводы Результаты этого исследования указывают на то, что использование 1D-сигналов для классификации малвирьа является более эффективным, чем традиционные 2D-подходы. Будущие исследования будут сфокусированы на расширении этой техники для работы с более сложными данными и улучш

Abstract

Malware classification is a contemporary and ongoing challenge in cyber-security: modern obfuscation techniques are able to evade traditional static analysis, while dynamic analysis is too resource intensive to be deployed at a large scale. One prominent line of research addresses these limitations by converting malware binaries into 2D images by heuristically reshaping them into a 2D grid before resizing using Lanczos resampling. These images can then be classified based on their textural information using computer vision approaches. While this approach can detect obfuscated malware more effectively than static analysis, the process of converting files into 2D images results in significant information loss due to both quantisation noise, caused by rounding to integer pixel values, and the introduction of 2D dependencies which do not exist in the original data. This loss of signal limits the classification performance of the downstream model. This work addresses these weaknesses by instead resizing the files into 1D signals which avoids the need for heuristic reshaping, and additionally these signals do not suffer from quantisation noise due to being stored in a floating-point format. It is shown that existing 2D CNN architectures can be readily adapted to classify these 1D signals for improved performance. Furthermore, a bespoke 1D convolutional neural network, based on the ResNet architecture and squeeze-and-excitation layers, was developed to classify these signals and evaluated on the MalNet dataset. It was found to achieve state-of-the-art performance on binary, type, and family level classification with F1 scores of 0.874, 0.503, and 0.507, respectively, paving the way for future models to operate on the proposed signal modality.

Ссылки и действия

Связанные статьи

Signal-Based Malware Classification Using 1D CNNs

## Контекст Modern malware detection faces significant challenges due to the use of advanced obfuscation techniques, whi...

2025-09-10