Securing LLM-Generated Embedded Firmware through AI Agent-Driven Validation and Patching

2509.09970v1 cs.CR, cs.AI 2025-09-16
Авторы:

Seyed Moein Abtahi, Akramul Azim

Резюме на русском

## Контекст Large Language Models (LLMs), такие как GPT-4, могут значительно облегчить процесс генерации прошивок для устройств с микроконтроллерами, таких как FreeRTOS. Однако, несмотря на высокую степень автоматизации, они часто пропускают критические уязвимости и не соответствуют функциональным требованиям, таким как минимальные временные задержки. Это приводит к риску внедрения потенциально вредоносных кодав в системы, которые могут быть использованы для угроз безопасности. Недостаток интегрированных методов для моделирования времени выполнения и анализа возможных уязвимостей делает такие системы неудовлетворительными для использования в критичных приложениях, таких как технологии беспилотных систем и системы управления производством. Таким образом, имеется потребность в разработке методологии, которая не только сможет генерировать прошивки, но и автоматически проверять их на наличие уязвимостей, а также улучшать их до нужного уровня безопасности. ## Метод Метод, предлагаемый в работе, включает в себя три этапа: 1) генерация прошивки с использованием LLMs в виртуальной среде, 2) автоматическая проверка безопасности и 3) итеративное улучшение прошивки. Для генерации прошивки авторы используют структурированные запросы (промпты), которые позволяют LLMs генерировать код для задач в области сетевого взаимодействия и управления FreeRTOS. Этот процесс включает в себя не только генерацию кода, но и выполнение функции в симуляторе QEMU. Для проверки безопасности были использованы методы, такие как fuzzing, static analysis и runtime monitoring. Чтобы улучшать безопасность, авторы использовали нейросетевые модели, которые могут анализировать возможные угрозы, оптимизировать производительность и проверять соответствие стандартам. Уязвимости, выявленные в процессе, относят к стандартному справочнику CWE (Common Weakness Enumeration) и используются для стимулирования LLM-программы, которая генерирует патчи для устранения данных уязвимостей. ## Результаты В ходе экспериментов была проведена ряд тестов, включая fuzzing, static analysis и runtime monitoring. Было выявлено, что LLM-based methodology позволяет значительно улучшить безопасность прошивок, снизив количество уязвимостей на 92.4% (с 37.3% до 0.87). Также была достигнута 95.8% соответствия требованиям threat model. Отметим, что лучший результат был получен при использовании GPT-4, который показал значительное улучшение уровня безопасности и производительности. Была также проверена реакция FreeRTOS на внедренные уязвимости, и были получены результаты в рамках требуемых показателей реактивности. ## Значимость Методология, предложенная в ра

Abstract

Large Language Models (LLMs) show promise in generating firmware for embedded systems, but often introduce security flaws and fail to meet real-time performance constraints. This paper proposes a three-phase methodology that combines LLM-based firmware generation with automated security validation and iterative refinement in a virtualized environment. Using structured prompts, models like GPT-4 generate firmware for networking and control tasks, deployed on FreeRTOS via QEMU. These implementations are tested using fuzzing, static analysis, and runtime monitoring to detect vulnerabilities such as buffer overflows (CWE-120), race conditions (CWE-362), and denial-of-service threats (CWE-400). Specialized AI agents for Threat Detection, Performance Optimization, and Compliance Verification collaborate to improve detection and remediation. Identified issues are categorized using CWE, then used to prompt targeted LLM-generated patches in an iterative loop. Experiments show a 92.4\% Vulnerability Remediation Rate (37.3\% improvement), 95.8\% Threat Model Compliance, and 0.87 Security Coverage Index. Real-time metrics include 8.6ms worst-case execution time and 195{\mu}s jitter. This process enhances firmware security and performance while contributing an open-source dataset for future research.

Ссылки и действия