Learning from Few Samples: A Novel Approach for High-Quality Malcode Generation
2508.18148v1
cs.CR, cs.AI
2025-08-27
Авторы:
Haijian Ma, Daizong Liu, Xiaowen Cai, Pan Zhou, Yulai Xie
Резюме на русском
#### **Контекст**
Сетевая безопасность требует эффективного распознавания и реагирования на подключения, наносящие ущерб системе. Основным компонентом этой защиты являются Intrusion Detection Systems (IDS), которые отслеживают и анализируют действия, нарушающие безопасность. Однако существует значительная проблема: недостаток качественных данных для обучения моделей. Многие IDS сталкиваются с ограниченным количеством хорошо лейблированных примеров вредоносного кода, что снижает эффективность распознавания. Данная проблема настолько актуальна, что требуется развитие новых подходов для улучшения создания моделей даже при недостатке данных.
#### **Метод**
Предлагается рамка **GANGRL-LLM**, которая синтезирует принципы Generative Adversarial Networks (GAN) и Large Language Models (LLM) для улучшения моделирования вредоносных действий. Основная методология заключается в совместном тренировании дискриминатора и генератора. Дискриминатор, основанный на GAN, улучшает распознавание вредоносных шаблонов, используя генерируемые примеры и реальные данные. Генератор, основанный на LLM, усовершенствован с помощью сигналов вознаграждения от дискриминатора, чтобы улучшить качество генерируемого вредоносного кода. Этот парадигму совместного обучения расширяет возможности обучения с ограниченными данными.
#### **Результаты**
В экспериментах были использованы реальные данные о вредоносных действиях, включая SQL Injection (SQLi). Были проведены сравнительные анализы с другими подходами, показав высокую эффективность **GANGRL-LLM** в ситуациях с небольшим количеством лейблированных примеров. Обучение показало не только улучшение моделей вредоносного кода, но и повышение точности обнаружения SQLi. Эти результаты подтверждают универсальность фреймворка в разных атачных сценариях.
#### **Значимость**
Разработанная система может применяться в сетевой защите, где необходимы эффективные модели для распознавания и ответа на вредоносные действия. Основное преимущество заключается в улучшении качества обучения даже при недостатке данных. Это возможно благодаря использованию GAN и LLM, что делает систему устойчивой к недостатку информации. Данный подход может быть применен для создания новых, более надёжных систем обнаружения и защиты от сетевых угроз.
#### **Выводы**
**GANGRL-LLM** демонстрирует сильные способности в обучении с небольшим количеством лейблированных экземпляров. Он улучшает как синтез вредоносных действий, так и распознавание SQLi, что делает его важной компонентой в развитии систем защиты от вторжений. Будущие исследования будут направлены на расширение предложенного фреймворка для поддержки других типов вредоносных действий и улучшения
Abstract
Intrusion Detection Systems (IDS) play a crucial role in network security
defense. However, a significant challenge for IDS in training detection models
is the shortage of adequately labeled malicious samples. To address these
issues, this paper introduces a novel semi-supervised framework
\textbf{GANGRL-LLM}, which integrates Generative Adversarial Networks (GANs)
with Large Language Models (LLMs) to enhance malicious code generation and SQL
Injection (SQLi) detection capabilities in few-sample learning scenarios.
Specifically, our framework adopts a collaborative training paradigm where: (1)
the GAN-based discriminator improves malicious pattern recognition through
adversarial learning with generated samples and limited real samples; and (2)
the LLM-based generator refines the quality of malicious code synthesis using
reward signals from the discriminator. The experimental results demonstrate
that even with a limited number of labeled samples, our training framework is
highly effective in enhancing both malicious code generation and detection
capabilities. This dual enhancement capability offers a promising solution for
developing adaptive defense systems capable of countering evolving cyber
threats.
Ссылки и действия
Дополнительные ресурсы: