LLM-HyPZ: Hardware Vulnerability Discovery using an LLM-Assisted Hybrid Platform for Zero-Shot Knowledge Extraction and Refinement

2509.00647v1 cs.CR, cs.AI 2025-09-05
Авторы:

Yu-Zheng Lin, Sujan Ghimire, Abhiram Nandimandalam, Jonah Michael Camacho, Unnati Tripathi, Rony Macwan, Sicong Shao, Setareh Rafatirad, Rozhin Yasaei, Pratik Satam, Soheil Salehi

Резюме на русском

## Контекст Современная информационная система становится все более зависимой от железных силок, которые становятся все более сложными. Однако возникают новые проблемы с безопасностью, которые требуют статистически обоснованных и автоматизированных способов отслеживания, идентификации и лечения уязвимостей в железной системе. Решение этих проблем требует ввода некоторых методик и способов, которые позволят обнаруживать эти уязвимости быстрее и эффективнее. ## Метод LLM-HyPZ представляет собой гибридную платформу для выявления уязвимостей железа, основанную на глубоком обучении. Она использует нулевой-выстрел классификацию, контекстуализированные векторы, неупорядоченные кластеризации и стимулированные сводки для масштабной эксплуатации корпуса CVE (Common Vulnerabilities and Exposures) на железных силок. Базовая модель, тренируемая на текстовых данных, использует нулевой-выстрел текстовой классификации, чтобы обнаруживать определенные характеристики уязвимостей, а затем эти данные классифицируются с помощью неупорядоченных кластеризаций для поиска рекуррентных тем. Этот процесс позволяет идентификацию уязвимостей в железной системе, выделяя темы, которые необходимо рассмотреть. ## Результаты Применение LLM-HyPZ к корпусу CVE за 2021–2024 года (114 836 записей) привело к выявлению 1 742 уязвимостей железа. Эти уязвимости были сгруппированы в пять ключевых тем, включая перехват привилегий через BIOS и фирмвер, ошибки памяти в мобильных и IoT-системах, и физические вторжения. Бенчмарк, проведенный на семи моделях LLM, показал, что LLaMA 3.3 70B достигает 99,5% точности классификации на курируемом наборе данных. Эти результаты позволяют значительно сократить специалистскую работу в области уязвимостей железа, повышая эффективность и точность идентификации. ## Значимость Предложенная платформа имеет потенциал для применения в различных сферах, таких как безопасность железа, анализ рисков, и анализ уязвимостей в железной системе. Она предлагает существенное преимущество в скорости и точности обнаружения уязвимостей, что может ускорить процессы идентификации и лечения уязвимостей. Это может иметь значительное влияние на рынок безопасности железа, позволяя уменьшить риски и улучшить стабильность систем. ## Выводы LLM-HyPZ представляет собой первую систему, основанную на глубоком обучении, для масштабного обнаружения уязвимостей железа. Она эффективно идентифицирует рекуррентные темы уязвимостей и ускоряет проц

Abstract

The rapid growth of hardware vulnerabilities has created an urgent need for systematic and scalable analysis methods. Unlike software flaws, which are often patchable post-deployment, hardware weaknesses remain embedded across product lifecycles, posing persistent risks to processors, embedded devices, and IoT platforms. Existing efforts such as the MITRE CWE Hardware List (2021) relied on expert-driven Delphi surveys, which lack statistical rigor and introduce subjective bias, while large-scale data-driven foundations for hardware weaknesses have been largely absent. In this work, we propose LLM-HyPZ, an LLM-assisted hybrid framework for zero-shot knowledge extraction and refinement from vulnerability corpora. Our approach integrates zero-shot LLM classification, contextualized embeddings, unsupervised clustering, and prompt-driven summarization to mine hardware-related CVEs at scale. Applying LLM-HyPZ to the 2021-2024 CVE corpus (114,836 entries), we identified 1,742 hardware-related vulnerabilities. We distilled them into five recurring themes, including privilege escalation via firmware and BIOS, memory corruption in mobile and IoT systems, and physical access exploits. Benchmarking across seven LLMs shows that LLaMA 3.3 70B achieves near-perfect classification accuracy (99.5%) on a curated validation set. Beyond methodological contributions, our framework directly supported the MITRE CWE Most Important Hardware Weaknesses (MIHW) 2025 update by narrowing the candidate search space. Specifically, our pipeline surfaced 411 of the 1,026 CVEs used for downstream MIHW analysis, thereby reducing expert workload and accelerating evidence gathering. These results establish LLM-HyPZ as the first data-driven, scalable approach for systematically discovering hardware vulnerabilities, thereby bridging the gap between expert knowledge and real-world vulnerability evidence.

Ссылки и действия