SIExVulTS: Sensitive Information Exposure Vulnerability Detection System using Transformer Models and Static Analysis
2508.19472v1
cs.CR, cs.AI
2025-08-29
Авторы:
Kyler Katz, Sara Moshtari, Ibrahim Mujhid, Mehdi Mirakhorli, Derek Garcia
Резюме на русском
#### Контекст
Сенситивная информационная вытеска (Sensitive Information Exposure, SIEx) — это класс уязвимостей (CWE-200), характеризующийся незаконным получением конфиденциальной информации. Она остается одной из наиболее распространенных причин утечек данных, приводящих к серьезным безопасностным проблемам. Однако существующие системы детектирования этих уязвимостей часто недостаточно точны и не учитывают контекстно-зависимые аспекты. Мотивацией для разработки SIExVulTS является потребность в эффективной системе, которая могла бы обнаруживать и проверять уязвимости SIEx в коде, особенно в Java-приложениях.
#### Метод
SIExVulTS является трехэтапной системой, объединяющей модели на основе трансформеров с статическим анализом кода. **Первый этап** — Attack Surface Detection Engine — использует модели преобразования для обнаружения конфиденциальных переменных, строк, комментариев и точек входа в код (sinks). **Второй этап** — Exposure Analysis Engine — анализирует полученные данные с помощью CodeQL-запросов, структурированных в соответствии с иерархией CWE-200. **Третий этап** — Flow Verification Engine — использует GraphCodeBERT для подтверждения потоков данных от источника к стоке с помощью семантического анализа. Эта система была протестирована на данных, включая реальные CVE, синтетические примеры CWE-200 и данные из 31 открытых проектов.
#### Результаты
SIExVulTS продемонстрировала заметную эффективность во всех стадиях. Attack Surface Detection Engine показала F1-метрику выше 93%, Exposure Analysis Engine — 85.71%, а Flow Verification Engine улучшила точность с 22.61% до 87.23%. Благодаря этой системе были выявлены шесть новых CVE в крупных Apache-проектах. Эти результаты подтверждают высокую точность и практичность SIExVulTS в обнаружении и проверке уязвимостей SIEx.
#### Значимость
SIExVulTS может использоваться в различных областях, включая аудит безопасности, тестирование программного обеспечения и анализ безопасности приложений. Она предлагает преимущества в том числе более точном и контекстно-зависимом обнаружении уязвимостей, чем существующие инструменты. Дальнейшие исследования могут сфокусироваться на расширении поддержки других языков программирования и интеграции с динамическим анализом.
#### Выводы
SIExVulTS представляет собой перспективный инструмент для обнаружения уязвимостей SIEx, особенно в Java-приложениях. Она доказала свою эффективность в улучшении безопасности программного обеспечения, а также открыла пути для будущих разработок в области анализа и защиты программных систем.
Abstract
Sensitive Information Exposure (SIEx) vulnerabilities (CWE-200) remain a
persistent and under-addressed threat across software systems, often leading to
serious security breaches. Existing detection tools rarely target the diverse
subcategories of CWE-200 or provide context-aware analysis of code-level data
flows.
Aims: This paper aims to present SIExVulTS, a novel vulnerability detection
system that integrates transformer-based models with static analysis to
identify and verify sensitive information exposure in Java applications.
Method: SIExVulTS employs a three-stage architecture: (1) an Attack Surface
Detection Engine that uses sentence embeddings to identify sensitive variables,
strings, comments, and sinks; (2) an Exposure Analysis Engine that instantiates
CodeQL queries aligned with the CWE-200 hierarchy; and (3) a Flow Verification
Engine that leverages GraphCodeBERT to semantically validate source-to-sink
flows. We evaluate SIExVulTS using three curated datasets, including real-world
CVEs, a benchmark set of synthetic CWE-200 examples, and labeled flows from 31
open-source projects.
Results: The Attack Surface Detection Engine achieved an average F1 score
greater than 93\%, the Exposure Analysis Engine achieved an F1 score of
85.71\%, and the Flow Verification Engine increased precision from 22.61\% to
87.23\%. Moreover, SIExVulTS successfully uncovered six previously unknown CVEs
in major Apache projects.
Conclusions: The results demonstrate that SIExVulTS is effective and
practical for improving software security against sensitive data exposure,
addressing limitations of existing tools in detecting and verifying CWE-200
vulnerabilities.
Ссылки и действия
Дополнительные ресурсы: