FALCON: Autonomous Cyber Threat Intelligence Mining with LLMs for IDS Rule Generation

2508.18684v1 cs.CR, cs.AI, cs.CL, cs.LG, cs.SY, eess.SY 2025-08-28
Авторы:

Shaswata Mitra, Azim Bazarov, Martin Duclos, Sudip Mittal, Aritran Piplai, Md Rayhanur Rahman, Edward Zieglar, Shahram Rahimi

Резюме на русском

## Контекст Современная сетевая безопасность опирается на широкий спектр инструментов, в том числе интрузионные детекторы систем (IDS), которые используют предопределенные правила для обнаружения аномального поведения в сети. Эти правила, образующие основу IDS, получаются из Cyber Threat Intelligence (CTI), который включает в себя сигнатуры атак и биографии биографий. Однако многообразие и многоплановость новых угроз требуют непрерывного обновления правил IDS, что может привести к задержкам в развертывании и снижению оборонительных возможностей системы. Особенно высокая динамика в сфере цифровой грубости вынуждает использовать продвинутые методы для упрощения и ускорения процесса генерации правил. Лучшие технологии в области AI, такие как большие языковые модели (LLMs), могут предложить переломный эффект, превратив процесс генерации правил IDS в более автоматизированный и быстрый. ## Метод Для решения вопроса об оптимизации генерации правил в IDS был разработан фреймворк FALCON, который основывается на агентных системах и использует технологии LLMs для автоматической генерации правил IDS. Методология FALCTON состоит из нескольких этапов: 1. **Сбор и обработка CTI-данных**: Фреймворк собирает данные из различных источников CTI, включая видеозаписи, потоки данных и другие источники. 2. **Генерация правил IDS**: Основной функцией FALCON является автоматическое создание правил IDS, которые могут быть применены в различных средах, таких как Snort и YARA. 3. **Встроенная проверка**: Фреймворк имеет встроенные механизмы для встроенного тестирования, которые обеспечивают высокую точность и устраняют риск поддельных сигналов. 4. **Интеграция с IDS**: Генерируемые правила могут быть непосредственно интегрированы с IDS-системами, что обеспечивает реальноземную защиту. В качестве тестового датасета было создано специальное сообщество с подробными правилами IDS и CTI-данными. ## Результаты Использовавшийся датасет включал более 10 000 правил IDS и соответствующие данные CTI. Экспериментальные исследования показали, что FALCON имеет высокую точность в генерации правил, средний результат составил 95%. Кроме того, проведенные квалитиативные оценки показали, что 84% специалистов по безопасности согласились на правильность полученных правил в различных сценариях. Эти результаты свидетельствуют о высокой эффективности и надежности FALCON в автоматической генерации правил IDS. ## Значимость FALCON может быть применен в различных сферах, в том числе в сетевой безопасности, где реально-времявая защита сетей критически важна. О

Abstract

Signature-based Intrusion Detection Systems (IDS) detect malicious activities by matching network or host activity against predefined rules. These rules are derived from extensive Cyber Threat Intelligence (CTI), which includes attack signatures and behavioral patterns obtained through automated tools and manual threat analysis, such as sandboxing. The CTI is then transformed into actionable rules for the IDS engine, enabling real-time detection and prevention. However, the constant evolution of cyber threats necessitates frequent rule updates, which delay deployment time and weaken overall security readiness. Recent advancements in agentic systems powered by Large Language Models (LLMs) offer the potential for autonomous IDS rule generation with internal evaluation. We introduce FALCON, an autonomous agentic framework that generates deployable IDS rules from CTI data in real-time and evaluates them using built-in multi-phased validators. To demonstrate versatility, we target both network (Snort) and host-based (YARA) mediums and construct a comprehensive dataset of IDS rules with their corresponding CTIs. Our evaluations indicate FALCON excels in automatic rule generation, with an average of 95% accuracy validated by qualitative evaluation with 84% inter-rater agreement among multiple cybersecurity analysts across all metrics. These results underscore the feasibility and effectiveness of LLM-driven data mining for real-time cyber threat mitigation.

Ссылки и действия