SCoGen: Scenario-Centric Graph-Based Synthesis of Real-World Code Problems
2509.14281v1
cs.SE, cs.AI
2025-09-20
Авторы:
Xifeng Yao, Dongyu Lang, Wu Zhang, Xintong Guo, Huarui Xie, Yinhao Ni, Ping Liu, Guang Shen, Yi Bai, Dandan Tu, Changzheng Zhang
Резюме на русском
#### Контекст
Область развития кодахных бо LLM (Large Language Models) стала одной из ключевых направлений искусственного интеллекта. За последние годы эти модели демонстрируют великолепные результаты в различных задачах, включая автоматизацию разработки программного обеспечения. Однако существует значительная проблема — отсутствие достаточного количества реалистичных реальных проблем, с которыми сталкиваются программисты в повседневной работе. Это ограничивает возможности моделей и требует разработки систем, позволяющих генерировать реалистичные и задачи, воспроизводящие реальные условия разработки.
#### Метод
Предлагаемая в статье модель SCoGen (Scenario-Centric Graph-Based Synthesis of Real-World Code Problems) строится на основе интеграции доменного знания, навыков и технических решений, извлеченных из реальных программистских данных. Источники данных, использованные в процессе, включают Stack Overflow и Kaggle. Для генерирования кода воспроизводящего реальные контексты, в модели используется граф-представление (scenario-centric graph), в котором каждый узел (domain knowledge, domain skills, coding skills) хранит специфический контекст. Граф строится на основе сценариев (application scenarios), которые также извлекаются из данных. Эта структура позволяет управлять степенью сложности и разнообразия генерируемых задач.
#### Результаты
Изученная модель протестирована на сравнительных экспериментах с другими современными LLM, включая модели с различными размерами и функциональностью. Результаты показали, что SCoGen показывает значительно лучший результат в генерации реалистичных проблем в сравнении с состоящими моделями, как в области кодинга, так и в общих задачах. Эксперименты проводились на реальных данных, включая задачи из практических проектов. Результаты подтверждают, что SCoGen способна эффективно воспроизводить действительные условия разработки.
#### Значимость
Этот подход может быть применен в разработке систем для генерирования кода, помогающих программистам в решении реальных задач. SCoGen может повысить эффективность тренировочных моделей, обеспечивая более реалистичные условия тестирования и развития. Кроме того, модель может быть применена в различных областях, где требуется генерация реальных задач, например, для обучения программистам в компаниях, а также для создания тестов и заданий для соревнований в области программирования.
#### Выводы
Основные достижения SCoGen заключаются в разработке уникальной граф-базной методологии для генерирования реалистичных кодовых проблем. Будущие исследования будут сконцентрированы на улучшении системы управления сложностью генерируемых задач, а также на расширении модели для включения дополнительных типов данных
Abstract
Significant advancements have been made in the capabilities of code large
language models, leading to their rapid adoption and application across a wide
range of domains. However, their further advancements are often constrained by
the scarcity of real-world coding problems. To bridge this gap, we propose a
novel framework for synthesizing code problems that emulate authentic
real-world scenarios. This framework systematically integrates domain
knowledge, domain skills, and coding skills, all of which are meticulously
extracted from real-world programming-related datasets, including Stack
Overflow and Kaggle. The extracted elements serve as the foundational building
blocks for constructing code problems. To align the generated problems with
practical applications, application scenarios are also mined from the
aforementioned datasets. These scenarios are then utilized to construct a
scenario-centric graph that interconnects domain knowledge, domain skills, and
coding skills. Based on this structured representation, a sampling strategy on
the graph is designed, which effectively controls the generation of a code
problem with complexity and diversity, reflects real-world challenges.
Experimental results demonstrate that the proposed method consistently achieves
superior performance over state-of-the-art open-source large language models of
varying sizes and functionalities, including both coders and general-purpose
models, across a diverse set of real-world benchmarks.
Ссылки и действия
Дополнительные ресурсы: