HiGraph: A Large-Scale Hierarchical Graph Dataset for Malware Analysis

2509.02113v1 cs.LG, cs.AI, cs.CR, cs.SI 2025-09-05
Авторы:

Han Chen, Hanchen Wang, Hongmei Chen, Ying Zhang, Lu Qin, Wenjie Zhang

Резюме на русском

## Контекст Современные методы анализа вредоносных программ (вирусов, троянов, рокет-троянов) часто сталкиваются с проблемой ограниченности используемых данных. Большинство методов опираются на одноуровневые графы (например, Control Flow Graphs), представляющие программу как неорганизованный набор инструкций. Однако в реальности программы обладают сложной структурой, где различные функции взаимодействуют на разных уровнях: от высокоуровневых функциональных взаимодействий до низкоуровневой инструкции. Эта сложность часто остается недооцененной, что приводит к неэффективным решениям в области обнаружения и анализа вредоносных программ. ## Метод Для решения этой проблемы предлагается **HiGraph** — большая публичная база данных, основанная на двухуровневых графах: **Control Flow Graphs (CFGs)** и **Function Call Graphs (FCGs)**. CFGs представляют логическое содержимое функций, в то время как FCGs охватывают взаимодействия между функциями. Эта двухуровневая структура позволяет хранить информацию о семантических связях между уровнями программы, что является ключевым фактором для эффективного обнаружения вредоносных программ. Данные в HiGraph собраны из более чем **200 миллионов CFGs**, прикрепленных к **595 тысячам FCGs**, что делает этот ресурс крупнейшим в своем классе. ## Результаты Исследователи провели широкомасштабный анализ HiGraph, демонстрируя его эффективность в обнаружении вредоносных программ. Многочисленные эксперименты показали, что данный датасет позволяет отличать вредоносные и безопасные программы с высокой точностью, даже при использовании методов кода-обфаскации. Например, HiGraph может выделить не только уровень пользовательских функций, но и операции на уровне инструкций, что делает его более надежным в сравнении с одноуровневыми графами. ## Значимость HiGraph имеет огромный потенциал в различных областях, включая поиск вредоносных программ, анализ безопасности, а также моделирование и анализ сложных структур данных. Он предлагает оптимальную структуру для обнаружения вредоносного кода, а также является полезным инструментом для развития методов обнаружения новых видов вредоносных программ, которые могут быть скрыты в сложных иерархиях. ## Выводы HiGraph представляет собой революционное решение в области анализа вредоносных программ. Он демонстрирует, что использование двухуровневых графов позволяет охватить гораздо более широкий круг семантических связей в программном коде, что делает его ключевым для развития будущих исследований в области безопасности информационных технологий. Дальнейшими направлениями могут стать расши

Abstract

The advancement of graph-based malware analysis is critically limited by the absence of large-scale datasets that capture the inherent hierarchical structure of software. Existing methods often oversimplify programs into single level graphs, failing to model the crucial semantic relationship between high-level functional interactions and low-level instruction logic. To bridge this gap, we introduce \dataset, the largest public hierarchical graph dataset for malware analysis, comprising over \textbf{200M} Control Flow Graphs (CFGs) nested within \textbf{595K} Function Call Graphs (FCGs). This two-level representation preserves structural semantics essential for building robust detectors resilient to code obfuscation and malware evolution. We demonstrate HiGraph's utility through a large-scale analysis that reveals distinct structural properties of benign and malicious software, establishing it as a foundational benchmark for the community. The dataset and tools are publicly available at https://higraph.org.

Ссылки и действия