Securing LLM-Generated Embedded Firmware through AI Agent-Driven Validation and Patching
2509.09970v1
cs.CR, cs.AI
2025-09-16
Авторы:
Seyed Moein Abtahi, Akramul Azim
Резюме на русском
## Контекст
Large Language Models (LLMs), такие как GPT-4, могут значительно облегчить процесс генерации прошивок для устройств с микроконтроллерами, таких как FreeRTOS. Однако, несмотря на высокую степень автоматизации, они часто пропускают критические уязвимости и не соответствуют функциональным требованиям, таким как минимальные временные задержки. Это приводит к риску внедрения потенциально вредоносных кодав в системы, которые могут быть использованы для угроз безопасности. Недостаток интегрированных методов для моделирования времени выполнения и анализа возможных уязвимостей делает такие системы неудовлетворительными для использования в критичных приложениях, таких как технологии беспилотных систем и системы управления производством. Таким образом, имеется потребность в разработке методологии, которая не только сможет генерировать прошивки, но и автоматически проверять их на наличие уязвимостей, а также улучшать их до нужного уровня безопасности.
## Метод
Метод, предлагаемый в работе, включает в себя три этапа: 1) генерация прошивки с использованием LLMs в виртуальной среде, 2) автоматическая проверка безопасности и 3) итеративное улучшение прошивки. Для генерации прошивки авторы используют структурированные запросы (промпты), которые позволяют LLMs генерировать код для задач в области сетевого взаимодействия и управления FreeRTOS. Этот процесс включает в себя не только генерацию кода, но и выполнение функции в симуляторе QEMU. Для проверки безопасности были использованы методы, такие как fuzzing, static analysis и runtime monitoring. Чтобы улучшать безопасность, авторы использовали нейросетевые модели, которые могут анализировать возможные угрозы, оптимизировать производительность и проверять соответствие стандартам. Уязвимости, выявленные в процессе, относят к стандартному справочнику CWE (Common Weakness Enumeration) и используются для стимулирования LLM-программы, которая генерирует патчи для устранения данных уязвимостей.
## Результаты
В ходе экспериментов была проведена ряд тестов, включая fuzzing, static analysis и runtime monitoring. Было выявлено, что LLM-based methodology позволяет значительно улучшить безопасность прошивок, снизив количество уязвимостей на 92.4% (с 37.3% до 0.87). Также была достигнута 95.8% соответствия требованиям threat model. Отметим, что лучший результат был получен при использовании GPT-4, который показал значительное улучшение уровня безопасности и производительности. Была также проверена реакция FreeRTOS на внедренные уязвимости, и были получены результаты в рамках требуемых показателей реактивности.
## Значимость
Методология, предложенная в ра
Abstract
Large Language Models (LLMs) show promise in generating firmware for embedded
systems, but often introduce security flaws and fail to meet real-time
performance constraints. This paper proposes a three-phase methodology that
combines LLM-based firmware generation with automated security validation and
iterative refinement in a virtualized environment. Using structured prompts,
models like GPT-4 generate firmware for networking and control tasks, deployed
on FreeRTOS via QEMU. These implementations are tested using fuzzing, static
analysis, and runtime monitoring to detect vulnerabilities such as buffer
overflows (CWE-120), race conditions (CWE-362), and denial-of-service threats
(CWE-400). Specialized AI agents for Threat Detection, Performance
Optimization, and Compliance Verification collaborate to improve detection and
remediation. Identified issues are categorized using CWE, then used to prompt
targeted LLM-generated patches in an iterative loop. Experiments show a 92.4\%
Vulnerability Remediation Rate (37.3\% improvement), 95.8\% Threat Model
Compliance, and 0.87 Security Coverage Index. Real-time metrics include 8.6ms
worst-case execution time and 195{\mu}s jitter. This process enhances firmware
security and performance while contributing an open-source dataset for future
research.
Ссылки и действия
Дополнительные ресурсы: