Mitigating Distribution Shift in Graph-Based Android Malware Classification via Function Metadata and LLM Embeddings

2508.06734v1 cs.CR, cs.LG 2025-08-13
Авторы:

Ngoc N. Tran, Anwar Said, Waseem Abbas, Tyler Derr, Xenofon D. Koutsoukos

Резюме на русском

#### Контекст Графовые классификаторы в области обнаружения Android-малвирусов показали высокую точность — более 94% на стандартных датасетах. Однако они сталкиваются с существенными проблемами при работе с неизвестными вариантами малвирусов одной и той же семьи: в этом случае точность может падать до 45%. Это указывает на ограничения существующих подходов: они часто не удается ловко ловить глубокие семантические закономерности. Наша мотивация заключается в том, чтобы улучшить обнаружение малвирусов, оперируя не только структурой графов, но и дополнительной семантической информацией. #### Метод Мы предлагаем фреймворк, который дополняет графы вызовов функций семантическими признаками, включая метаданные функций и коды, полученные с помощью больших языковых моделей (LLM). Наш подход адаптивен и может работать в условиях неполного доступа к данным. Мы создали два новых бенчмарка: MalNet-Tiny-Common (для оценки кросс-семейной общности) и MalNet-Tiny-Distinct (для оценки эволюции угроз). Эти датасеты были построены на основе группировки малвирусов по семейным признакам. #### Результаты Наши эксперименты показали, что добавление семантической информации повышает точность классификации на 8% при работе с распределительными перестановками. Мы также проверили нашу модель на устойчивости к неизвестным вариантам, и она показала стабильное улучшение в результатах в разных условиях. Интеграция с адаптивными методами дала дополнительные пользы, повысив общую надежность. #### Значимость Фреймворк может применяться в области обнаружения малвирусов, где необходима высокая устойчивость к изменению распределения данных. Он позволяет улучшить производительность существующих моделей, особенно в условиях эволюции угроз и кросс-семейных сценариев. Этот рабочий подход имеет потенциал для создания масштабируемых и надежных систем обнаружения малвирусов в будущем. #### Выводы Мы доказали, что добавление семантической информации значительно улучшает устойчивость классификаторов к распределенным перестановкам. В дальнейшем нам нужно расширить датасеты и проверить модели на более сложных сценариях. Это будет направлено на повышение надежности и точности будущих систем обнаружения малвирусов.

Abstract

Graph-based malware classifiers can achieve over 94% accuracy on standard Android datasets, yet we find they suffer accuracy drops of up to 45% when evaluated on previously unseen malware variants from the same family - a scenario where strong generalization would typically be expected. This highlights a key limitation in existing approaches: both the model architectures and their structure-only representations often fail to capture deeper semantic patterns. In this work, we propose a robust semantic enrichment framework that enhances function call graphs with contextual features, including function-level metadata and, when available, code embeddings derived from large language models. The framework is designed to operate under real-world constraints where feature availability is inconsistent, and supports flexible integration of semantic signals. To evaluate generalization under realistic domain and temporal shifts, we introduce two new benchmarks: MalNet-Tiny-Common and MalNet-Tiny-Distinct, constructed using malware family partitioning to simulate cross-family generalization and evolving threat behavior. Experiments across multiple graph neural network backbones show that our method improves classification performance by up to 8% under distribution shift and consistently enhances robustness when integrated with adaptation-based methods. These results offer a practical path toward building resilient malware detection systems in evolving threat environments.

Ссылки и действия