## Контекст
Многочисленные проблемы безопасности в системах, таких как Интернет вещей (IoT), мобильные платформы и автоматизированные системы, становятся все более критичными. Традиционные мутационные методы тестирования, такие как fuzzing, эффективно исследуют код, но часто ограничиваются мутациями в пределах байтов или битов, не учитывая семантическую логику и синтаксические зависимости. Автоматизированные инструменты, такие как AFL++, используют словари, грамматики и гибридные техники для применения структурных ограничений, но не полностью раскрывают глубинные семантические зависимости и отраслевые требования. С другой стороны, мощные технологии тестирования, основанные на технологиях ИИ и глубокого обучения, такие как модели Больших Языковых Моделей (LLMs), могут использоваться для семантического понимания структуры информации, предлагая более эффективные и точные мутации, что повышает качество тестирования. Однако отсутствие "правильного" метода мутации делает применение супервизированного обучения нецелесообразным, что приводит к заинтересованности в использовании нескольких способов мутации на основе заданий. В нашей работе мы сочетаем возможности LLMs с традиционным методом fuzzing, ориентируясь на ассинхронность и различные специфики тестирования.
## Метод
Предлагаемая микросервисная архитектура объединяет методы тестирования fuzzing с моделями Больших Языковых Моделей (LLMs), используя структуру открытого фреймворка AFL++. Мы используем техники few-shot learning для обучения моделей LLM в режиме предварительной подготовки к работе. В качестве моделей используются Deepseek-r1-Distill-Llama-70B, Llama3.3, QwQ-32B и Gemma3. Мы разработали новый алгоритм, который включает модель LLM в цикл мутации, что позволяет ей анализировать интерфейсную логику, выявлять зависимости между полями и создавать высококачественные инструменты fuzzing. Таким образом, мы стремимся решить несколько задач: (R1) обеспечить интеграцию LLMs в модель fuzzing, (R2) исследовать качество мутаций, полученных с помощью few-shot способа, (R3) проверить влияние преобразований на выборку входных данных, а (R4) протестировать конкретные модели LLM для использования в таких средах.
## Результаты
Мы проводили эксперименты с помощью 4 моделей LLM, используя протоколы запросов и анализ функционального поведения. Для оценки качества мутаций мы применяли метрики сложности и выявляли значимость мутаций в реальных сценариях. Мы демонстрируем, что Deepseek-r1-Distill-Llama-70B показал высокую эффективность в создании высококачественных мутаций, лучше отражающих слож