Do Code Semantics Help? A Comprehensive Study on Execution Trace-Based Information for Code Large Language Models

2509.11686v2 cs.SE, cs.AI 2025-09-19

Авторы:

Jian Wang, Xiaofei Xie, Qiang Hu, Shangqing Liu, Yi Li

Резюме на русском

## Контекст Кодные ЛLМы (Code LLMs) представляют собой перспективные инструменты для программирования, обладающими выдающимися способностями в обработке и понимании кода. Однако недавние исследования выделили существенные ограничения этих моделей в логическом рассуждении и понимании функциональности программ. Основными проблемами являются: (1) нехватка уверенности в оценке выполнения программы во время исполнения (runtime behavior), что затрудняет их использование в задачах, требующих точного понимания, (2) несогласованность и декомпозированность семантической информации, такой как выполнение трасс, в существующих подходах, что существенно сказывается на общеуниверсальности и логических возможностях моделей. Эти затруднения подчеркивают необходимость проработки систематичных методов для повышения рассуждающих возможностей Code LLMs. ## Метод Мы предлагаем универсальный фреймворк, который использует семантическую информацию, такую как выполнение трасс, для повышения точности задач, связанных с кодом. Наш подход стремится к тому, чтобы объединить эту информацию с кодовыми задачами, улучшая возможности моделей для супервизированного отображения (supervised fine-tuning, SFT) и постобучения вывода (post-phase inference). Мы проводим подробный анализ влияния этой информации на различные модели Code LLMs, проверяя способность различных подходов к обработке семантической информации и её вклад в улучшение результатов. ## Результаты Мы провели широкий экспериментальный анализ, используя различные модели Code LLMs и наборы данных, связанных с выполнением трасс. Наши результаты показывают, что несмотря на важность семантической информации, её вклад в улучшение SFT и тестовых задач оказался ограниченным. Более того, наши эксперименты демонстрируют, что существующие методы не удается полностью решить проблемы несогласованности и неполноты семантической информации, что ставит под вопрос их использование в практических задачах. ## Значимость Наши результаты имеют большое значение для области искусственного интеллекта и программирования. Они указывают на необходимость развития более систематичных подходов к интеграции семантической информации в модели Code LLMs. Это может привести к улучшению их точности, универсальности и практического применения в реальных задачах. Мы также выделяем потенциал для дальнейших исследований в области улучшения рассуждений моделей Code LLMs, в том числе развития новых подходов к обработке семантических данных. ## Выводы Мы демонстрируем ограниченность вклада семантической информации в улучшение SFT и постобучения вывода Code LLMs. Наши результаты вызовут новую д

Abstract

Code Large Language Models (Code LLMs) have opened a new era in programming with their impressive capabilities. However, recent research has revealed critical limitations in their ability to reason about runtime behavior and understand the actual functionality of programs, which poses significant challenges for their post-training and practical deployment. Specifically, Code LLMs encounter two principal issues: (1) a lack of proficiency in reasoning about program execution behavior, as they struggle to interpret what programs actually do during runtime, and (2) the inconsistent and fragmented representation of semantic information, such as execution traces, across existing methods, which hinders their ability to generalize and reason effectively. These challenges underscore the necessity for more systematic approaches to enhance the reasoning capabilities of Code LLMs. To address these issues, we introduce a generic framework to support integrating semantic information~(e.g., execution trace) to code task-relevant prompts, and conduct a comprehensive study to explore the role of semantic information in enhancing the reasoning ability of Code LLMs accordingly. Specifically, we focus on investigating the usefulness of trace-based semantic information in boosting supervised fine-tuning~(SFT) and post-phase inference of Code LLMs. The experimental results surprisingly disagree with previous works and demonstrate that semantic information has limited usefulness for SFT and test time scaling of Code LLM.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Do Code Semantics Help? A Comprehensive Study on Execution Trace-Based Information for Code Large Language Models

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Automating Complex Document Workflows via Stepwise and Rollback-Enabled Operatio...

Quantitative Analysis of Technical Debt and Pattern Violation in Large Language ...

MANTRA: a Framework for Multi-stage Adaptive Noise TReAtment During Training

Beyond Greenfield: The D3 Framework for AI-Driven Productivity in Brownfield Eng...

LLM-as-a-Judge for Scalable Test Coverage Evaluation: Accuracy, Operational Reli...

Навигация