Beyond Classification: Evaluating LLMs for Fine-Grained Automatic Malware Behavior Auditing

2509.14335v1 cs.CR, cs.AI, cs.SE 2025-09-20
Авторы:

Xinran Zheng, Xingzhi Qian, Yiling He, Shuo Yang, Lorenzo Cavallaro

Резюме на русском

## Контекст Автоматизированные методы классификации зловредных программ (malware) достигли высокой точности, но удовлетворяют не все потребности в области безопасности. На сегодняшний день, возникла необходимость в аудите поведения зловредных приложений, которая позволяет получить конкретные и доказываемые выводы о характере их действий. Эта задача становится сложной из-за того, что злоумышленники скрывают свои намерения в сложных фреймворках и приложениях, что делает ручной анализ дорогим и медленным процессом. Бо LLM могут стать помощником в этой области, но их потенциал в аудите поведения лайков остается мало исследованным. Это связано с тремя основными проблемами: недостаточность тонкой гранулярности в аннотациях, преобладанием безопасного кода, маскирующего зловредные сигналы, и недостаточной надёжности выводов LLMs, оказавшейся подверженной гипотезам. Для стандартизации и оценки потенциала LLMs в этой области был разработан MalEval — комплексный фреймворк для центровных аудитов Android-malware. ## Метод MalEval предлагает специально сконструированную экспертно подтверждённую базу данных, содержащую функциональные аудиторские отчеты и обновлённый список чувствительных API-интерфейсов, чтобы уменьшить неопределённость и улучшить качество обучающих данных. Для определенности и доказываемости результатов, MalEval представляет функциональные представления структуры функций в качестве интермедиате атрибуции. Он определяет 4 задачи, интересующие аналитиков: приоритетизацию функций, привлечение доказательств, синтез поведения, и дискриминацию примеров, с помощью доменно-специальных метрик и единой ориентированной метрики рабочей нагрузки. Этот фреймворк позволяет выполнять систематическую оценку семи широко используемых LLMs на курсированной выборке из современных зловредных приложений и неверно классифицированных безопасных приложений. ## Результаты Эксперименты проводились с использованием MalEval на данных относящихся к зловредным приложениям и неверно классифицированным безопасным приложениям. Оценены семь широко используемых LLMs, и их результаты были сравнены по созданным задачам и метрикам. Результаты показали, что хотя LLMs демонстрируют как удачные результаты, они также имеют серьёзные ограничения, особенно в сложных сценариях. Например, они демонстрируют высокую точность в функциональной атрибуции но слабо выполняют задачи глубокого анализа поведения. Эта систематическая оценка позволяет выявить преимущества и ограничения LLMs в области аудита поведения зловредных приложений. ## Значимость MalEval представляет собой

Abstract

Automated malware classification has achieved strong detection performance. Yet, malware behavior auditing seeks causal and verifiable explanations of malicious activities -- essential not only to reveal what malware does but also to substantiate such claims with evidence. This task is challenging, as adversarial intent is often hidden within complex, framework-heavy applications, making manual auditing slow and costly. Large Language Models (LLMs) could help address this gap, but their auditing potential remains largely unexplored due to three limitations: (1) scarce fine-grained annotations for fair assessment; (2) abundant benign code obscuring malicious signals; and (3) unverifiable, hallucination-prone outputs undermining attribution credibility. To close this gap, we introduce MalEval, a comprehensive framework for fine-grained Android malware auditing, designed to evaluate how effectively LLMs support auditing under real-world constraints. MalEval provides expert-verified reports and an updated sensitive API list to mitigate ground truth scarcity and reduce noise via static reachability analysis. Function-level structural representations serve as intermediate attribution units for verifiable evaluation. Building on this, we define four analyst-aligned tasks -- function prioritization, evidence attribution, behavior synthesis, and sample discrimination -- together with domain-specific metrics and a unified workload-oriented score. We evaluate seven widely used LLMs on a curated dataset of recent malware and misclassified benign apps, offering the first systematic assessment of their auditing capabilities. MalEval reveals both promising potential and critical limitations across audit stages, providing a reproducible benchmark and foundation for future research on LLM-enhanced malware behavior auditing. MalEval is publicly available at https://github.com/ZhengXR930/MalEval.git

Ссылки и действия