A Comparison of Selected Image Transformation Techniques for Malware Classification

2509.10838v1 cs.CR, cs.LG 2025-09-17
Авторы:

Rishit Agrawal, Kunal Bhatnagar, Andrew Do, Ronnit Rana, Mark Stamp

Резюме на русском

## Контекст Современное исследование в области машинного обучения применяется для обнаружения и классификации вредоносных программ (malware). Одним из актуальных подходов является использование образов для классификации malware. Этот подход базируется на том, что можно превратить экзекутабельные файлы malware в изображения, используя различные методы, и затем применить методы машинного обучения, ориентированные на изображения, для классификации. Тем не менее, существует несколько проблем, связанных с тем, каким образом эти файлы должны быть представлены в качестве изображений, и какие методы являются наиболее эффективными. Изучение этой области важно для создания более точных и надежных систем обнаружения malware, которые могут быть использованы в реальных ситуациях для защиты от вредоносного ПО. ## Метод В ходе данного исследования использовались восемь различных методов преобразования файлов malware в изображения. Эти методы включают в себя различные подходы, такие как преобразование двоичных данных в градации серого, создание спектрограмм, применение различных типов хешей и другие. Для каждого из этих методов производилась оценка различных машинных обучающих моделей, включая сверточные нейронные сети (Convolutional Neural Networks, CNN), рекуррентные нейронные сети (Recurrent Neural Networks, RNN) и другие модели. Методы преобразования были применены к большому набору данных malware, а результаты этих преобразований использовались для обучения и тестирования моделей. ## Результаты Результаты экспериментов показали, что несколько методов преобразования показали похожие результаты в терминах точности классификации, несмотря на различия в технических подходах. Например, методы, основанные на сглаживании изображений или использовании хешей, продемонстрировали почти одинаковую точность классификации на разных моделях. Это позволяет сделать вывод, что точность классификации malware зависит больше от сильных сторон методов обработки изображений, чем от того, как именно файлы malware были преобразованы в изображения. Было также отмечено, что некоторые модели, такие как CNN, показали более высокую точность в классификации по сравнению с другими моделями. ## Значимость Результаты этого исследования показывают, что методы преобразования malware в изображения имеют существенное влияние на эффективность классификации, но не являются однозначным фактором. Эффективные системы классификации могут быть построены на основе различных методов преобразования, что дает широкий выбор для использования в разных сценариях. Это может быть полезно для разработки более универсальных систем обнаружения malware, которые могут применяться в различных ситуациях, вк

Abstract

Recently, a considerable amount of malware research has focused on the use of powerful image-based machine learning techniques, which generally yield impressive results. However, before image-based techniques can be applied to malware, the samples must be converted to images, and there is no generally-accepted approach for doing so. The malware-to-image conversion strategies found in the literature often appear to be ad hoc, with little or no effort made to take into account properties of executable files. In this paper, we experiment with eight distinct malware-to-image conversion techniques, and for each, we test a variety of learning models. We find that several of these image conversion techniques perform similarly across a range of learning models, in spite of the image conversion processes being quite different. These results suggest that the effectiveness of image-based malware classification techniques may depend more on the inherent strengths of image analysis techniques, as opposed to the precise details of the image conversion strategy.

Ссылки и действия