SCoGen: Scenario-Centric Graph-Based Synthesis of Real-World Code Problems

2509.14281v1 cs.SE, cs.AI 2025-09-20
Авторы:

Xifeng Yao, Dongyu Lang, Wu Zhang, Xintong Guo, Huarui Xie, Yinhao Ni, Ping Liu, Guang Shen, Yi Bai, Dandan Tu, Changzheng Zhang

Резюме на русском

#### Контекст Область развития кодахных бо LLM (Large Language Models) стала одной из ключевых направлений искусственного интеллекта. За последние годы эти модели демонстрируют великолепные результаты в различных задачах, включая автоматизацию разработки программного обеспечения. Однако существует значительная проблема — отсутствие достаточного количества реалистичных реальных проблем, с которыми сталкиваются программисты в повседневной работе. Это ограничивает возможности моделей и требует разработки систем, позволяющих генерировать реалистичные и задачи, воспроизводящие реальные условия разработки. #### Метод Предлагаемая в статье модель SCoGen (Scenario-Centric Graph-Based Synthesis of Real-World Code Problems) строится на основе интеграции доменного знания, навыков и технических решений, извлеченных из реальных программистских данных. Источники данных, использованные в процессе, включают Stack Overflow и Kaggle. Для генерирования кода воспроизводящего реальные контексты, в модели используется граф-представление (scenario-centric graph), в котором каждый узел (domain knowledge, domain skills, coding skills) хранит специфический контекст. Граф строится на основе сценариев (application scenarios), которые также извлекаются из данных. Эта структура позволяет управлять степенью сложности и разнообразия генерируемых задач. #### Результаты Изученная модель протестирована на сравнительных экспериментах с другими современными LLM, включая модели с различными размерами и функциональностью. Результаты показали, что SCoGen показывает значительно лучший результат в генерации реалистичных проблем в сравнении с состоящими моделями, как в области кодинга, так и в общих задачах. Эксперименты проводились на реальных данных, включая задачи из практических проектов. Результаты подтверждают, что SCoGen способна эффективно воспроизводить действительные условия разработки. #### Значимость Этот подход может быть применен в разработке систем для генерирования кода, помогающих программистам в решении реальных задач. SCoGen может повысить эффективность тренировочных моделей, обеспечивая более реалистичные условия тестирования и развития. Кроме того, модель может быть применена в различных областях, где требуется генерация реальных задач, например, для обучения программистам в компаниях, а также для создания тестов и заданий для соревнований в области программирования. #### Выводы Основные достижения SCoGen заключаются в разработке уникальной граф-базной методологии для генерирования реалистичных кодовых проблем. Будущие исследования будут сконцентрированы на улучшении системы управления сложностью генерируемых задач, а также на расширении модели для включения дополнительных типов данных

Abstract

Significant advancements have been made in the capabilities of code large language models, leading to their rapid adoption and application across a wide range of domains. However, their further advancements are often constrained by the scarcity of real-world coding problems. To bridge this gap, we propose a novel framework for synthesizing code problems that emulate authentic real-world scenarios. This framework systematically integrates domain knowledge, domain skills, and coding skills, all of which are meticulously extracted from real-world programming-related datasets, including Stack Overflow and Kaggle. The extracted elements serve as the foundational building blocks for constructing code problems. To align the generated problems with practical applications, application scenarios are also mined from the aforementioned datasets. These scenarios are then utilized to construct a scenario-centric graph that interconnects domain knowledge, domain skills, and coding skills. Based on this structured representation, a sampling strategy on the graph is designed, which effectively controls the generation of a code problem with complexity and diversity, reflects real-world challenges. Experimental results demonstrate that the proposed method consistently achieves superior performance over state-of-the-art open-source large language models of varying sizes and functionalities, including both coders and general-purpose models, across a diverse set of real-world benchmarks.

Ссылки и действия