CryptoScope: Utilizing Large Language Models for Automated Cryptographic Logic Vulnerability Detection

2508.11599v1 cs.CR, cs.AI 2025-08-19
Авторы:

Zhihao Li, Zimo Ji, Tao Zheng, Hao Ren, Xiao Lan

Резюме на русском

#### Контекст Криптографические алгоритмы являются ключевыми элементами современной безопасности, но их реализации часто содержат скрытые логические ошибки, которые трудно обнаружить. Эти ошибки могут привести к серьезным уязвимостям. Обнаружение этих проблем требует глубокого понимания фундаментальных принципов криптографии и их реализаций, что сложно достичь с помощью традиционных методов. Данная работа адресует эту проблему, предлагая инновационный подход к автоматизированному обнаружению логических уязвимостей в криптографических системах. #### Метод CryptoScope основывается на использовании больших языковых моделей (LLMs) с подходами Chain-of-Thought (CoT) и Retrieval-Augmented Generation (RAG). Этот подход включает в себя создание криптографической базы знаний, содержащей более 12,000 записей, которая используется для расширения контекста и поддержки моделей. Метод работает с LLM-CLVA, бенчмарком, содержащим 92 реальных и синтетических примеров, включая уязвимости CVE и задачи из CTF-конкурсов. Архитектура CryptoScope интегрирует LLMs с криптографическим знанием, позволяя выявлять логические проблемы с высокой точностью. #### Результаты Работа проводилась на данных LLM-CLVA, использовавших 92 случаев, включая реальные CVE-уязвимости и задачи из CTF-конкурсов. CryptoScope показал существенное улучшение в сравнении с существующими LLM-based методами: DeepSeek-V3 повысился на 11.62%, GPT-4o-mini на 20.28%, GLM-4-Flash на 28.69%. Более того, CryptoScope обнаружило 9 ранее неизвестных уязвимостей в широко используемых проектах с открытым исходным кодом. Это доказывает способность CryptoScope к обнаружению sophisticated logic flaws, которые не видны другим методам. #### Значимость CryptoScope может быть применен для автоматического обнаружения логических уязвимостей в криптографических реализациях, облегчая процесс проверки и тестирования. Он имеет высокую значимость в области безопасности программного обеспечения, где корректность криптографических реализаций критически важна. Данный подход позволяет эффективно обнаруживать проблемы, которые невозможно обнаружить с помощью традиционных методов. Потенциальное влияние CryptoScope заключается в повышении уровня безопасности в кодовых базах, уменьшении времени на тестирование и повышении уровня надежности систем. #### Выводы CryptoScope демонстрирует эффективность в обнаружении логических уязвимостей в криптографических реализациях с помощью LLMs. Он показал значительное улучшение в сравнении с теми моделями, которые были использованы ранее. Будущие исследования будут сконцентрированы на расширении базы знаний

Abstract

Cryptographic algorithms are fundamental to modern security, yet their implementations frequently harbor subtle logic flaws that are hard to detect. We introduce CryptoScope, a novel framework for automated cryptographic vulnerability detection powered by Large Language Models (LLMs). CryptoScope combines Chain-of-Thought (CoT) prompting with Retrieval-Augmented Generation (RAG), guided by a curated cryptographic knowledge base containing over 12,000 entries. We evaluate CryptoScope on LLM-CLVA, a benchmark of 92 cases primarily derived from real-world CVE vulnerabilities, complemented by cryptographic challenges from major Capture The Flag (CTF) competitions and synthetic examples across 11 programming languages. CryptoScope consistently improves performance over strong LLM baselines, boosting DeepSeek-V3 by 11.62%, GPT-4o-mini by 20.28%, and GLM-4-Flash by 28.69%. Additionally, it identifies 9 previously undisclosed flaws in widely used open-source cryptographic projects.

Ссылки и действия