Learning from Few Samples: A Novel Approach for High-Quality Malcode Generation

2508.18148v1 cs.CR, cs.AI 2025-08-27

Авторы:

Haijian Ma, Daizong Liu, Xiaowen Cai, Pan Zhou, Yulai Xie

Резюме на русском

#### **Контекст** Сетевая безопасность требует эффективного распознавания и реагирования на подключения, наносящие ущерб системе. Основным компонентом этой защиты являются Intrusion Detection Systems (IDS), которые отслеживают и анализируют действия, нарушающие безопасность. Однако существует значительная проблема: недостаток качественных данных для обучения моделей. Многие IDS сталкиваются с ограниченным количеством хорошо лейблированных примеров вредоносного кода, что снижает эффективность распознавания. Данная проблема настолько актуальна, что требуется развитие новых подходов для улучшения создания моделей даже при недостатке данных. #### **Метод** Предлагается рамка **GANGRL-LLM**, которая синтезирует принципы Generative Adversarial Networks (GAN) и Large Language Models (LLM) для улучшения моделирования вредоносных действий. Основная методология заключается в совместном тренировании дискриминатора и генератора. Дискриминатор, основанный на GAN, улучшает распознавание вредоносных шаблонов, используя генерируемые примеры и реальные данные. Генератор, основанный на LLM, усовершенствован с помощью сигналов вознаграждения от дискриминатора, чтобы улучшить качество генерируемого вредоносного кода. Этот парадигму совместного обучения расширяет возможности обучения с ограниченными данными. #### **Результаты** В экспериментах были использованы реальные данные о вредоносных действиях, включая SQL Injection (SQLi). Были проведены сравнительные анализы с другими подходами, показав высокую эффективность **GANGRL-LLM** в ситуациях с небольшим количеством лейблированных примеров. Обучение показало не только улучшение моделей вредоносного кода, но и повышение точности обнаружения SQLi. Эти результаты подтверждают универсальность фреймворка в разных атачных сценариях. #### **Значимость** Разработанная система может применяться в сетевой защите, где необходимы эффективные модели для распознавания и ответа на вредоносные действия. Основное преимущество заключается в улучшении качества обучения даже при недостатке данных. Это возможно благодаря использованию GAN и LLM, что делает систему устойчивой к недостатку информации. Данный подход может быть применен для создания новых, более надёжных систем обнаружения и защиты от сетевых угроз. #### **Выводы** **GANGRL-LLM** демонстрирует сильные способности в обучении с небольшим количеством лейблированных экземпляров. Он улучшает как синтез вредоносных действий, так и распознавание SQLi, что делает его важной компонентой в развитии систем защиты от вторжений. Будущие исследования будут направлены на расширение предложенного фреймворка для поддержки других типов вредоносных действий и улучшения

Abstract

Intrusion Detection Systems (IDS) play a crucial role in network security defense. However, a significant challenge for IDS in training detection models is the shortage of adequately labeled malicious samples. To address these issues, this paper introduces a novel semi-supervised framework \textbf{GANGRL-LLM}, which integrates Generative Adversarial Networks (GANs) with Large Language Models (LLMs) to enhance malicious code generation and SQL Injection (SQLi) detection capabilities in few-sample learning scenarios. Specifically, our framework adopts a collaborative training paradigm where: (1) the GAN-based discriminator improves malicious pattern recognition through adversarial learning with generated samples and limited real samples; and (2) the LLM-based generator refines the quality of malicious code synthesis using reward signals from the discriminator. The experimental results demonstrate that even with a limited number of labeled samples, our training framework is highly effective in enhancing both malicious code generation and detection capabilities. This dual enhancement capability offers a promising solution for developing adaptive defense systems capable of countering evolving cyber threats.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Learning from Few Samples: A Novel Approach for High-Quality Malcode Generation

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

A Light-Weight Large Language Model File Format for Highly-Secure Model Distribu...

SoK: a Comprehensive Causality Analysis Framework for Large Language Model Secur...

Hey GPT-OSS, Looks Like You Got It - Now Walk Me Through It! An Assessment of th...

Context-Aware Hierarchical Learning: A Two-Step Paradigm towards Safer LLMs

Large Language Model based Smart Contract Auditing with LLMBugScanner

Навигация