SmartCoder-R1: Towards Secure and Explainable Smart Contract Generation with Security-Aware Group Relative Policy Optimization
2509.09942v1
cs.CR, cs.AI, cs.SE
2025-09-16
Авторы:
Lei Yu, Jingyuan Zhang, Xin Wang, Jiajia Ma, Li Yang, Fengjun Zhang
Резюме на русском
#### Контекст
Смарт-контракты — это автоматизированные программы, которые управляют высокоценными активами, и их неправильная реализация может привести к катастрофическим финансовым потерям. Эта сложность усиливается при использовании больших языковых моделей (LLMs), которые часто действуют как "черные ящики", не позволяя проанализировать их работу. Эти модели часто генерируют код с критическими уязвимостями, которые могут быть использованы злоумышленниками. Данная проблема мотивирует разработку новых методов, которые обеспечат безопасность и понятность смарт-контрактов.
#### Метод
Мы предлагаем фреймворк SmartCoder-R1, основанный на Qwen2.5-Coder-7B, для смарт-контрактов. Фреймворк включает три основные этапы. В первом этапе проводится **Continual Pre-training (CPT)**, направленный на усовершенствование модели для генерации кода. Затем используется **Long Chain-of-Thought Supervised Fine-Tuning (L-CoT SFT)** на основе 7,998 проверенных экспертом примеров рассуждений и кода для обучения модели выполнять безопасный код. На последнем этапе применяется **Security-Aware Group Relative Policy Optimization (S-GRPO)**, чтобы оптимизировать генерацию кода, учитывая безопасность, компиляцию и формат.
#### Результаты
На тестировании на 756 реальных функциях SmartCoder-R1 демонстрирует лучшие результаты по 5 ключевым показателям: ComPass (87.70%), VulRate (8.60%), SafeAval (80.16%), FuncRate (53.84%) и FullRate (50.53%). Наиболее критический FullRate показывает увеличение в 45.79% по сравнению с самым близким конкурентом. Более того, экспертные оценки показали высокое качество генерируемого кода в трех аспектах: функциональности (82.7%), безопасности (85.3%) и понятности (90.7%).
#### Значимость
Предложенный подход может быть применен в различных сферах, где требуется генерация безопасного и понятного кода, таких как финансовые системы, сети блокчейнов, и другие приложения, требующие высокой безопасности. Важность SmartCoder-R1 также заключается в том, что он обеспечивает прозрачный процесс рассуждений, что делает его более надежным и доступным для аудита и модификации.
#### Выводы
Результаты SmartCoder-R1 продемонстрировали высокую эффективность в решении проблем безопасности и понятности в генерации кода смарт-контрактов. Будущие исследования будут направлены на улучшение подхода, включая расширение обучающих данных, применение адаптивных методов оптимизации и исследование кросс-платформенной совместимости.
Abstract
Smart contracts automate the management of high-value assets, where
vulnerabilities can lead to catastrophic financial losses. This challenge is
amplified in Large Language Models (LLMs) by two interconnected failures: they
operate as unauditable "black boxes" lacking a transparent reasoning process,
and consequently, generate code riddled with critical security vulnerabilities.
To address both issues, we propose SmartCoder-R1 (based on Qwen2.5-Coder-7B), a
novel framework for secure and explainable smart contract generation. It begins
with Continual Pre-training (CPT) to specialize the model. We then apply Long
Chain-of-Thought Supervised Fine-Tuning (L-CoT SFT) on 7,998 expert-validated
reasoning-and-code samples to train the model to emulate human security
analysis. Finally, to directly mitigate vulnerabilities, we employ
Security-Aware Group Relative Policy Optimization (S-GRPO), a reinforcement
learning phase that refines the generation policy by optimizing a weighted
reward signal for compilation success, security compliance, and format
correctness. Evaluated against 17 baselines on a benchmark of 756 real-world
functions, SmartCoder-R1 establishes a new state of the art, achieving top
performance across five key metrics: a ComPass of 87.70%, a VulRate of 8.60%, a
SafeAval of 80.16%, a FuncRate of 53.84%, and a FullRate of 50.53%. This
FullRate marks a 45.79% relative improvement over the strongest baseline,
DeepSeek-R1. Crucially, its generated reasoning also excels in human
evaluations, achieving high-quality ratings for Functionality (82.7%), Security
(85.3%), and Clarity (90.7%).
Ссылки и действия
Дополнительные ресурсы: