LLM-HyPZ: Hardware Vulnerability Discovery using an LLM-Assisted Hybrid Platform for Zero-Shot Knowledge Extraction and Refinement
2509.00647v1
cs.CR, cs.AI
2025-09-05
Авторы:
Yu-Zheng Lin, Sujan Ghimire, Abhiram Nandimandalam, Jonah Michael Camacho, Unnati Tripathi, Rony Macwan, Sicong Shao, Setareh Rafatirad, Rozhin Yasaei, Pratik Satam, Soheil Salehi
Резюме на русском
## Контекст
Современная информационная система становится все более зависимой от железных силок, которые становятся все более сложными. Однако возникают новые проблемы с безопасностью, которые требуют статистически обоснованных и автоматизированных способов отслеживания, идентификации и лечения уязвимостей в железной системе. Решение этих проблем требует ввода некоторых методик и способов, которые позволят обнаруживать эти уязвимости быстрее и эффективнее.
## Метод
LLM-HyPZ представляет собой гибридную платформу для выявления уязвимостей железа, основанную на глубоком обучении. Она использует нулевой-выстрел классификацию, контекстуализированные векторы, неупорядоченные кластеризации и стимулированные сводки для масштабной эксплуатации корпуса CVE (Common Vulnerabilities and Exposures) на железных силок. Базовая модель, тренируемая на текстовых данных, использует нулевой-выстрел текстовой классификации, чтобы обнаруживать определенные характеристики уязвимостей, а затем эти данные классифицируются с помощью неупорядоченных кластеризаций для поиска рекуррентных тем. Этот процесс позволяет идентификацию уязвимостей в железной системе, выделяя темы, которые необходимо рассмотреть.
## Результаты
Применение LLM-HyPZ к корпусу CVE за 2021–2024 года (114 836 записей) привело к выявлению 1 742 уязвимостей железа. Эти уязвимости были сгруппированы в пять ключевых тем, включая перехват привилегий через BIOS и фирмвер, ошибки памяти в мобильных и IoT-системах, и физические вторжения. Бенчмарк, проведенный на семи моделях LLM, показал, что LLaMA 3.3 70B достигает 99,5% точности классификации на курируемом наборе данных. Эти результаты позволяют значительно сократить специалистскую работу в области уязвимостей железа, повышая эффективность и точность идентификации.
## Значимость
Предложенная платформа имеет потенциал для применения в различных сферах, таких как безопасность железа, анализ рисков, и анализ уязвимостей в железной системе. Она предлагает существенное преимущество в скорости и точности обнаружения уязвимостей, что может ускорить процессы идентификации и лечения уязвимостей. Это может иметь значительное влияние на рынок безопасности железа, позволяя уменьшить риски и улучшить стабильность систем.
## Выводы
LLM-HyPZ представляет собой первую систему, основанную на глубоком обучении, для масштабного обнаружения уязвимостей железа. Она эффективно идентифицирует рекуррентные темы уязвимостей и ускоряет проц
Abstract
The rapid growth of hardware vulnerabilities has created an urgent need for
systematic and scalable analysis methods. Unlike software flaws, which are
often patchable post-deployment, hardware weaknesses remain embedded across
product lifecycles, posing persistent risks to processors, embedded devices,
and IoT platforms. Existing efforts such as the MITRE CWE Hardware List (2021)
relied on expert-driven Delphi surveys, which lack statistical rigor and
introduce subjective bias, while large-scale data-driven foundations for
hardware weaknesses have been largely absent. In this work, we propose
LLM-HyPZ, an LLM-assisted hybrid framework for zero-shot knowledge extraction
and refinement from vulnerability corpora. Our approach integrates zero-shot
LLM classification, contextualized embeddings, unsupervised clustering, and
prompt-driven summarization to mine hardware-related CVEs at scale. Applying
LLM-HyPZ to the 2021-2024 CVE corpus (114,836 entries), we identified 1,742
hardware-related vulnerabilities. We distilled them into five recurring themes,
including privilege escalation via firmware and BIOS, memory corruption in
mobile and IoT systems, and physical access exploits. Benchmarking across seven
LLMs shows that LLaMA 3.3 70B achieves near-perfect classification accuracy
(99.5%) on a curated validation set. Beyond methodological contributions, our
framework directly supported the MITRE CWE Most Important Hardware Weaknesses
(MIHW) 2025 update by narrowing the candidate search space. Specifically, our
pipeline surfaced 411 of the 1,026 CVEs used for downstream MIHW analysis,
thereby reducing expert workload and accelerating evidence gathering. These
results establish LLM-HyPZ as the first data-driven, scalable approach for
systematically discovering hardware vulnerabilities, thereby bridging the gap
between expert knowledge and real-world vulnerability evidence.
Ссылки и действия
Дополнительные ресурсы: