Beyond Classification: Evaluating LLMs for Fine-Grained Automatic Malware Behavior Auditing
2509.14335v1
cs.CR, cs.AI, cs.SE
2025-09-20
Авторы:
Xinran Zheng, Xingzhi Qian, Yiling He, Shuo Yang, Lorenzo Cavallaro
Резюме на русском
## Контекст
Автоматизированные методы классификации зловредных программ (malware) достигли высокой точности, но удовлетворяют не все потребности в области безопасности. На сегодняшний день, возникла необходимость в аудите поведения зловредных приложений, которая позволяет получить конкретные и доказываемые выводы о характере их действий. Эта задача становится сложной из-за того, что злоумышленники скрывают свои намерения в сложных фреймворках и приложениях, что делает ручной анализ дорогим и медленным процессом. Бо LLM могут стать помощником в этой области, но их потенциал в аудите поведения лайков остается мало исследованным. Это связано с тремя основными проблемами: недостаточность тонкой гранулярности в аннотациях, преобладанием безопасного кода, маскирующего зловредные сигналы, и недостаточной надёжности выводов LLMs, оказавшейся подверженной гипотезам. Для стандартизации и оценки потенциала LLMs в этой области был разработан MalEval — комплексный фреймворк для центровных аудитов Android-malware.
## Метод
MalEval предлагает специально сконструированную экспертно подтверждённую базу данных, содержащую функциональные аудиторские отчеты и обновлённый список чувствительных API-интерфейсов, чтобы уменьшить неопределённость и улучшить качество обучающих данных. Для определенности и доказываемости результатов, MalEval представляет функциональные представления структуры функций в качестве интермедиате атрибуции. Он определяет 4 задачи, интересующие аналитиков: приоритетизацию функций, привлечение доказательств, синтез поведения, и дискриминацию примеров, с помощью доменно-специальных метрик и единой ориентированной метрики рабочей нагрузки. Этот фреймворк позволяет выполнять систематическую оценку семи широко используемых LLMs на курсированной выборке из современных зловредных приложений и неверно классифицированных безопасных приложений.
## Результаты
Эксперименты проводились с использованием MalEval на данных относящихся к зловредным приложениям и неверно классифицированным безопасным приложениям. Оценены семь широко используемых LLMs, и их результаты были сравнены по созданным задачам и метрикам. Результаты показали, что хотя LLMs демонстрируют как удачные результаты, они также имеют серьёзные ограничения, особенно в сложных сценариях. Например, они демонстрируют высокую точность в функциональной атрибуции но слабо выполняют задачи глубокого анализа поведения. Эта систематическая оценка позволяет выявить преимущества и ограничения LLMs в области аудита поведения зловредных приложений.
## Значимость
MalEval представляет собой
Abstract
Automated malware classification has achieved strong detection performance.
Yet, malware behavior auditing seeks causal and verifiable explanations of
malicious activities -- essential not only to reveal what malware does but also
to substantiate such claims with evidence. This task is challenging, as
adversarial intent is often hidden within complex, framework-heavy
applications, making manual auditing slow and costly. Large Language Models
(LLMs) could help address this gap, but their auditing potential remains
largely unexplored due to three limitations: (1) scarce fine-grained
annotations for fair assessment; (2) abundant benign code obscuring malicious
signals; and (3) unverifiable, hallucination-prone outputs undermining
attribution credibility. To close this gap, we introduce MalEval, a
comprehensive framework for fine-grained Android malware auditing, designed to
evaluate how effectively LLMs support auditing under real-world constraints.
MalEval provides expert-verified reports and an updated sensitive API list to
mitigate ground truth scarcity and reduce noise via static reachability
analysis. Function-level structural representations serve as intermediate
attribution units for verifiable evaluation. Building on this, we define four
analyst-aligned tasks -- function prioritization, evidence attribution,
behavior synthesis, and sample discrimination -- together with domain-specific
metrics and a unified workload-oriented score. We evaluate seven widely used
LLMs on a curated dataset of recent malware and misclassified benign apps,
offering the first systematic assessment of their auditing capabilities.
MalEval reveals both promising potential and critical limitations across audit
stages, providing a reproducible benchmark and foundation for future research
on LLM-enhanced malware behavior auditing. MalEval is publicly available at
https://github.com/ZhengXR930/MalEval.git
Ссылки и действия
Дополнительные ресурсы: