Klear-CodeTest: Scalable Test Case Generation for Code Reinforcement Learning

2508.05710v1 cs.SE, cs.AI 2025-08-12

Авторы:

Jia Fu, Xinyu Yang, Hongzhi Zhang, Yahui Liu, Jingyuan Zhang, Qi Wang, Fuzheng Zhang, Guorui Zhou

Резюме на русском

#### Контекст Современные технологии обучения с подкреплением (reinforcement learning) для кода позволяют значительно улучшить качество решения задач программирования. Однако одной из ключевых проблем в этой области является получение точных и достоверных тестовых случаев для обучения. Тесты должны быть не только широко покрывающими, но и корректными. Несоответствие этих критериев может привести к негативному влиянию на обучение моделей и неточные выводы. Недостатком многих существующих подходов является отсутствие гарантий качества и безопасности тестов. В связи с этим возникает потребность в разработке методов, обеспечивающих качественную генерацию тестов и гарантированную достоверность результатов. #### Метод Klear-CodeTest представляет собой инновационный подход к генерации тестовых случаев для кода, основанный на Generator-Validation (G-V) фреймворке. Этот фреймворк состоит из двух основных компонентов: **генератора** (Generator), который строит тестовые сценарии, и **валидатора** (Validator), выполняющий подробное проверки результатов. Основной принцип валидатора заключается в **consistency validation**, то есть проверке результатов тестов на соответствие золотым решениям. Данный подход гарантирует точность и полноту тестов, включая не только обычные случаи, но и крайние (corner cases). Также, Klear-CodeTest включает в себя многоуровневую систему безопасности, оптимизированную для использования в онлайн-платформах. Эта система обеспечивает безопасность и надежность выполнения кода, запускаемого в рамках проверки. #### Результаты Разработанная система прошла тщательные эксперименты, в которых были использованы широкие данные для тестирования. Результаты показали, что Klear-CodeTest позволяет значительно улучшить качество тестов, обеспечивая более широкое покрытие и более точный анализ кода. Оценка эффективности проводилась по метрикам, таким как покрытие кода, точность решений и стабильность обучения моделей. Эксперименты демонстрируют, что применение этого подхода приводит к значительному повышению производительности и устойчивости моделей в коде обучения с подкреплением. #### Значимость Предложенный подход имеет широкие перспективы в различных областях, где применяются модели обучения с подкреплением для кода. Например, в сфере тестирования программного обеспечения, автоматизации разработки и обучения моделей для решения задач программирования. Ключевое преимущество Klear-CodeTest заключается в его способности генерировать качественные, полные и безопасные тестовые случаи, что позволяет значительно улучшить обучение моделей и их надежность. Этот подход может значительно упростить процесс тестирования и повысить качество решения задач в

Abstract

Precise, correct feedback is crucial for effectively training large language models (LLMs) in code reinforcement learning. However, synthesizing high-quality test cases remains a profoundly challenging and unsolved problem. In this work, we present Klear-CodeTest, a comprehensive test case synthesis framework featuring rigorous verification to ensure quality and reliability of test cases. Our approach achieves broad coverage of programming problems via a novel Generator-Validation (G-V) framework, ensuring correctness through a consistency validation mechanism that verifies outputs against gold solutions. The proposed G-V framework generates comprehensive test cases including both regular and corner cases, enhancing test coverage and discriminative power for solution correctness assessment in code reinforcement learning. In addition, we design a multi-layered security sandbox system optimized for online verification platforms, guaranteeing safe and reliable code execution. Through comprehensive experiments, we demonstrate the effectiveness of our curated dataset, showing significant improvements in model performance and training stability. The source codes, curated dataset and sandbox system are available at: https://github.com/Kwai-Klear/CodeTest.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Klear-CodeTest: Scalable Test Case Generation for Code Reinforcement Learning

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Automating Complex Document Workflows via Stepwise and Rollback-Enabled Operatio...

Quantitative Analysis of Technical Debt and Pattern Violation in Large Language ...

MANTRA: a Framework for Multi-stage Adaptive Noise TReAtment During Training

Beyond Greenfield: The D3 Framework for AI-Driven Productivity in Brownfield Eng...

LLM-as-a-Judge for Scalable Test Coverage Evaluation: Accuracy, Operational Reli...

Навигация