SmartCoder-R1: Towards Secure and Explainable Smart Contract Generation with Security-Aware Group Relative Policy Optimization

2509.09942v1 cs.CR, cs.AI, cs.SE 2025-09-16
Авторы:

Lei Yu, Jingyuan Zhang, Xin Wang, Jiajia Ma, Li Yang, Fengjun Zhang

Резюме на русском

#### Контекст Смарт-контракты — это автоматизированные программы, которые управляют высокоценными активами, и их неправильная реализация может привести к катастрофическим финансовым потерям. Эта сложность усиливается при использовании больших языковых моделей (LLMs), которые часто действуют как "черные ящики", не позволяя проанализировать их работу. Эти модели часто генерируют код с критическими уязвимостями, которые могут быть использованы злоумышленниками. Данная проблема мотивирует разработку новых методов, которые обеспечат безопасность и понятность смарт-контрактов. #### Метод Мы предлагаем фреймворк SmartCoder-R1, основанный на Qwen2.5-Coder-7B, для смарт-контрактов. Фреймворк включает три основные этапы. В первом этапе проводится **Continual Pre-training (CPT)**, направленный на усовершенствование модели для генерации кода. Затем используется **Long Chain-of-Thought Supervised Fine-Tuning (L-CoT SFT)** на основе 7,998 проверенных экспертом примеров рассуждений и кода для обучения модели выполнять безопасный код. На последнем этапе применяется **Security-Aware Group Relative Policy Optimization (S-GRPO)**, чтобы оптимизировать генерацию кода, учитывая безопасность, компиляцию и формат. #### Результаты На тестировании на 756 реальных функциях SmartCoder-R1 демонстрирует лучшие результаты по 5 ключевым показателям: ComPass (87.70%), VulRate (8.60%), SafeAval (80.16%), FuncRate (53.84%) и FullRate (50.53%). Наиболее критический FullRate показывает увеличение в 45.79% по сравнению с самым близким конкурентом. Более того, экспертные оценки показали высокое качество генерируемого кода в трех аспектах: функциональности (82.7%), безопасности (85.3%) и понятности (90.7%). #### Значимость Предложенный подход может быть применен в различных сферах, где требуется генерация безопасного и понятного кода, таких как финансовые системы, сети блокчейнов, и другие приложения, требующие высокой безопасности. Важность SmartCoder-R1 также заключается в том, что он обеспечивает прозрачный процесс рассуждений, что делает его более надежным и доступным для аудита и модификации. #### Выводы Результаты SmartCoder-R1 продемонстрировали высокую эффективность в решении проблем безопасности и понятности в генерации кода смарт-контрактов. Будущие исследования будут направлены на улучшение подхода, включая расширение обучающих данных, применение адаптивных методов оптимизации и исследование кросс-платформенной совместимости.

Abstract

Smart contracts automate the management of high-value assets, where vulnerabilities can lead to catastrophic financial losses. This challenge is amplified in Large Language Models (LLMs) by two interconnected failures: they operate as unauditable "black boxes" lacking a transparent reasoning process, and consequently, generate code riddled with critical security vulnerabilities. To address both issues, we propose SmartCoder-R1 (based on Qwen2.5-Coder-7B), a novel framework for secure and explainable smart contract generation. It begins with Continual Pre-training (CPT) to specialize the model. We then apply Long Chain-of-Thought Supervised Fine-Tuning (L-CoT SFT) on 7,998 expert-validated reasoning-and-code samples to train the model to emulate human security analysis. Finally, to directly mitigate vulnerabilities, we employ Security-Aware Group Relative Policy Optimization (S-GRPO), a reinforcement learning phase that refines the generation policy by optimizing a weighted reward signal for compilation success, security compliance, and format correctness. Evaluated against 17 baselines on a benchmark of 756 real-world functions, SmartCoder-R1 establishes a new state of the art, achieving top performance across five key metrics: a ComPass of 87.70%, a VulRate of 8.60%, a SafeAval of 80.16%, a FuncRate of 53.84%, and a FullRate of 50.53%. This FullRate marks a 45.79% relative improvement over the strongest baseline, DeepSeek-R1. Crucially, its generated reasoning also excels in human evaluations, achieving high-quality ratings for Functionality (82.7%), Security (85.3%), and Clarity (90.7%).

Ссылки и действия