From Attack Descriptions to Vulnerabilities: A Sentence Transformer-Based Approach
2509.02077v2
cs.CR, cs.CL, cs.LG, 68T50 Natural language processing, D.4.6; I.2.7
2025-09-05
Авторы:
Refat Othman, Diaeddin Rimawi, Bruno Rossi, Barbara Russo
Резюме на русском
#### Контекст
В области информационной безопасности важность анализа и автоматизации процесса связывания атак с уязвимостями несомненна. Несмотря на то, что уязвимости часто остаются незамеченными даже после их эксплуатации, их активное использование во время атак может обеспечить важные сведения о слабых местах систем. Установление связи между атаками и уязвимостями не только позволяет значительно сократить время отклика на инциденты, но и повышает эффективность защиты систем. Однако решение этой задачи вручную, особенно в больших объемах данных, невозможно, что приводит к потребности в автоматизированных системах. Текущая исследоательская работа адресует эту проблему, оценивая различные модели трансформации предложений с целью выявления подходящих уязвимостей.
#### Метод
Для решения проблемы связывания атак с уязвимостями были использованы 14 современных моделей трансформации предложений, включая Sentence-BERT, MiniLM и MPNet. Модели были обучены классифицировать текстовые описания атак и связывать их с уязвимостями из Common Vulnerabilities and Exposures (CVE) репозитория. Основной фокус был уделен модели Multi-QA-MPNet-base-dot-v1 (MMPNet), которая была оценена на специально подготовленных данных, содержащих технические описания атак. Результаты экспериментов были измерены с помощью метрик F1-score, precision и recall.
#### Результаты
Результаты экспериментов показали, что MMPNet достигла F1-score в 89.0, precision в 84.0 и recall в 94.7 при классификации описаний атак. Было обнаружено, что 56% уязвимостей, выявленных моделью, соответствуют уязвимостям, перечисленным в CVE, в сочетании с их атаками. Дополнительно, 61% уязвимостей, выявленных моделью, соответствуют таким, как описаны в CVE. Это позволяет судить о высокой эффективности модели в выявлении связанных уязвимостей. Было также выявлено, что 275 уязвимостей, выданных моделью, не были документированы в репозитории MITRE, что может указывать на новые находки в области безопасности.
#### Значимость
Результаты этой работы могут быть применены в области автоматизации мониторинга безопасности, позволяя системам быстрее и эффективнее реагировать на инциденты. Также модель MMPNet может использоваться для поиска новых уязвимостей, которые еще не описаны в репозиториях. Важно отметить, что этот подход может существенно сократить время, в течение которого уязвимости остаются необнаруженными и эксплуатируемыми, что повышает уровень защиты систем.
#### Выводы
Результаты исследования демонтстрируют, что модель MMPNet является высокоэффективной для связывания атак с уязвимостями. В даль
Abstract
In the domain of security, vulnerabilities frequently remain undetected even
after their exploitation. In this work, vulnerabilities refer to publicly
disclosed flaws documented in Common Vulnerabilities and Exposures (CVE)
reports. Establishing a connection between attacks and vulnerabilities is
essential for enabling timely incident response, as it provides defenders with
immediate, actionable insights. However, manually mapping attacks to CVEs is
infeasible, thereby motivating the need for automation. This paper evaluates 14
state-of-the-art (SOTA) sentence transformers for automatically identifying
vulnerabilities from textual descriptions of attacks. Our results demonstrate
that the multi-qa-mpnet-base-dot-v1 (MMPNet) model achieves superior
classification performance when using attack Technique descriptions, with an
F1-score of 89.0, precision of 84.0, and recall of 94.7. Furthermore, it was
observed that, on average, 56% of the vulnerabilities identified by the MMPNet
model are also represented within the CVE repository in conjunction with an
attack, while 61% of the vulnerabilities detected by the model correspond to
those cataloged in the CVE repository. A manual inspection of the results
revealed the existence of 275 predicted links that were not documented in the
MITRE repositories. Consequently, the automation of linking attack techniques
to vulnerabilities not only enhances the detection and response capabilities
related to software security incidents but also diminishes the duration during
which vulnerabilities remain exploitable, thereby contributing to the
development of more secure systems.