STAF: Leveraging LLMs for Automated Attack Tree-Based Security Test Generation
2509.20190v1
cs.CR, cs.AI
2025-09-26
Авторы:
Tanmay Khule, Stefan Marksteiner, Jose Alguindigue, Hannes Fuchs, Sebastian Fischmeister, Apurva Narayan
Резюме на русском
## Контекст
В современных автомобильных системах безопасность является приоритетной задачей, необходимой для защиты от грозящих поднятий угроз. Атакальные деревья (Attack Trees) широко применяются для систематического представления потенциальных нападений, однако генерация полноценных тестовых случаев на основе этих деревьев остается трудоемкой и распределенной задачей. Основные проблемы включают ограниченную автоматизацию, высокую стоимость и повышенный риск ошибок. Наша мотивация заключается в разработке автоматизированного подхода для генерации тестовых случаев на основе атакальных деревьев, чтобы уменьшить эти проблемы и повысить эффективность тестирования безопасности в автомобильных системах.
## Метод
Мы предлагаем STAF (Security Test Automation Framework), основанный на технологии Больших Лингвистических Моделей (LLMs) и шагах Ретриев-Аугментированной Генерации (RAG). Наша методология включает четыре основных этапа:
1. **Индексная оценка**: Используется для поиска и выбора спецификаций атакальных деревьев в базе данных.
2. **Поисковая генерация**: Деревья атаки автоматически преобразуются в запросы, которые затем используются для извлечения соответствующих данных.
3. **Верификационная генерация**: Генерируются тесты, которые проверяют возможность реализации указанных атак.
4. **Интеграция**: Генерируемые тесты интегрируются в автоматический фреймворк для тестирования, обеспечивая прозрачность в тестировании безопасности.
Этапы обеспечивают самокорректирующую систему, которая улучшает точность и эффективность генерации тестов в процессе.
## Результаты
Мы провели эксперименты с использованием огромного количества данных, включая стандартные спецификации атакальных деревьев (TARAs) и реальные сценарии безопасности. Наши результаты показывают, что STAF значительно превосходит общего назначения (ванильные) LLMs в том числе GPT-4.1 и DeepSeek. В частности, STAF продемонстрировал значительное улучшение эффективности, точности и масштабируемости, а также упростил интеграцию в рабочие процессы. Мы также показали, как наш подход может быть применен для создания тестовых сценариев в реальных ситуациях, используя сценарий стандартных тестов безопасности в автомобильном тестировании.
## Значимость
Наш подход имеет значительное применение в автомобильной отрасли, где требуется высокий уровень безопасности и надежности систем. Он предоставляет преимущества в том числе уменьшении времени тестирования, снижением стоимости, повышением точности и облегчением интеграции в рабочие процессы. В б
Abstract
In modern automotive development, security testing is critical for
safeguarding systems against increasingly advanced threats. Attack trees are
widely used to systematically represent potential attack vectors, but
generating comprehensive test cases from these trees remains a labor-intensive,
error-prone task that has seen limited automation in the context of testing
vehicular systems. This paper introduces STAF (Security Test Automation
Framework), a novel approach to automating security test case generation.
Leveraging Large Language Models (LLMs) and a four-step self-corrective
Retrieval-Augmented Generation (RAG) framework, STAF automates the generation
of executable security test cases from attack trees, providing an end-to-end
solution that encompasses the entire attack surface. We particularly show the
elements and processes needed to provide an LLM to actually produce sensible
and executable automotive security test suites, along with the integration with
an automated testing framework. We further compare our tailored approach with
general purpose (vanilla) LLMs and the performance of different LLMs (namely
GPT-4.1 and DeepSeek) using our approach. We also demonstrate the method of our
operation step-by-step in a concrete case study. Our results show significant
improvements in efficiency, accuracy, scalability, and easy integration in any
workflow, marking a substantial advancement in automating automotive security
testing methodologies. Using TARAs as an input for verfication tests, we create
synergies by connecting two vital elements of a secure automotive development
process.
Ссылки и действия
Дополнительные ресурсы: