LLM-GUARD: Large Language Model-Based Detection and Repair of Bugs and Security Vulnerabilities in C++ and Python
2508.16419v1
cs.SE, cs.LG
2025-08-26
Авторы:
Akshay Mhatre, Noujoud Nader, Patrick Diehl, Deepti Gupta
Резюме на русском
#################################
## Контекст
#################################
Large Language Models (LLMs), такие как ChatGPT-4, Claude 3, и LLaMA 4, вошли в программное обеспечение и развитие приложений, помогая в задачах от генерирования кода до дебаггинга. Несмотря на их мощь, их эффективность в обнаружении разнообразных ошибок в коде, особенно тех, которые имеют отношение к безопасности, остается мало изученной. Данное исследование призвано оценить эффективность трех ведущих LLMs в детектировании и исправлении ошибок в коде на C++ и Python. Исследование основывается на реальных фрагментах кода из SEED Labs, OpenSSL, и PyBugHive, а также использует контекстно-адаптивные протоколы взаимодействия с моделями, чтобы скопировать реальные сценарии дебаггинга.
#################################
## Метод
#################################
Методология основывается на нескольких этапах: набор данных, контекстно-адаптивное взаимодействие с моделями, и многомерная оценка результатов. Набор данных включает в себя 115 программных ошибок, созданных специально для экспериментов, которые охватывают синтаксические, семантические, и безопасности-связанные проблемы. Модели были оценивали в трех областях: детектировании ошибок, логической целостности, и рекомендации решений. Для каждого этапа использовались конкретные подходы: например, для детектирования ошибок - оперативное выделение проблемных участков кода; для логической целостности - проверка соответствия решений поставленным целям.
#################################
## Результаты
#################################
Результаты показали, что все три модели определяют синтаксические и семантические ошибки с высокой точностью, делая их полезными для образовательных целей и первоначальных анализов кода. Однако их эффективность снижается при работе с более сложными безопасности-связанными ошибками и большими кодовыми базами. ChatGPT-4 и Claude 3 оказались более устойчивыми в сценариях, требующих глубокого контекстного понимания, чем LLaMA 4. Это подтверждает их потенциал для автоматизированных систем код-ревью, но также выделяет ограничения в сфере безопасности.
#################################
## Значимость
#################################
Результаты имеют практическое значение для развития систем автоматизированного контроля качества кода, которые могут использовать LLMs для первоначального скрининга. Они также подчеркивают возможность LLMs в области образования, помогая учащимся понять принципы безопасного программирования. Несмотря на это, ограничения LLMs в сфере безопасности должны быть рассмотрены, когда эти модели применяются в критически важных системах.
#################################
## Выводы
#################################
Ларже Лангуэдж Моделс оказались эффективными для детектирования базовых ошибок в коде, но их применение в сфере безопасности требует дополнительных и
Abstract
Large Language Models (LLMs) such as ChatGPT-4, Claude 3, and LLaMA 4 are
increasingly embedded in software/application development, supporting tasks
from code generation to debugging. Yet, their real-world effectiveness in
detecting diverse software bugs, particularly complex, security-relevant
vulnerabilities, remains underexplored. This study presents a systematic,
empirical evaluation of these three leading LLMs using a benchmark of
foundational programming errors, classic security flaws, and advanced,
production-grade bugs in C++ and Python. The dataset integrates real code from
SEED Labs, OpenSSL (via the Suresoft GLaDOS database), and PyBugHive, validated
through local compilation and testing pipelines. A novel multi-stage,
context-aware prompting protocol simulates realistic debugging scenarios, while
a graded rubric measures detection accuracy, reasoning depth, and remediation
quality. Our results show that all models excel at identifying syntactic and
semantic issues in well-scoped code, making them promising for educational use
and as first-pass reviewers in automated code auditing. Performance diminishes
in scenarios involving complex security vulnerabilities and large-scale
production code, with ChatGPT-4 and Claude 3 generally providing more nuanced
contextual analyses than LLaMA 4. This highlights both the promise and the
present constraints of LLMs in serving as reliable code analysis tools.
Ссылки и действия
Дополнительные ресурсы: