Do Code Semantics Help? A Comprehensive Study on Execution Trace-Based Information for Code Large Language Models
2509.11686v2
cs.SE, cs.AI
2025-09-19
Авторы:
Jian Wang, Xiaofei Xie, Qiang Hu, Shangqing Liu, Yi Li
Резюме на русском
## Контекст
Кодные ЛLМы (Code LLMs) представляют собой перспективные инструменты для программирования, обладающими выдающимися способностями в обработке и понимании кода. Однако недавние исследования выделили существенные ограничения этих моделей в логическом рассуждении и понимании функциональности программ. Основными проблемами являются: (1) нехватка уверенности в оценке выполнения программы во время исполнения (runtime behavior), что затрудняет их использование в задачах, требующих точного понимания, (2) несогласованность и декомпозированность семантической информации, такой как выполнение трасс, в существующих подходах, что существенно сказывается на общеуниверсальности и логических возможностях моделей. Эти затруднения подчеркивают необходимость проработки систематичных методов для повышения рассуждающих возможностей Code LLMs.
## Метод
Мы предлагаем универсальный фреймворк, который использует семантическую информацию, такую как выполнение трасс, для повышения точности задач, связанных с кодом. Наш подход стремится к тому, чтобы объединить эту информацию с кодовыми задачами, улучшая возможности моделей для супервизированного отображения (supervised fine-tuning, SFT) и постобучения вывода (post-phase inference). Мы проводим подробный анализ влияния этой информации на различные модели Code LLMs, проверяя способность различных подходов к обработке семантической информации и её вклад в улучшение результатов.
## Результаты
Мы провели широкий экспериментальный анализ, используя различные модели Code LLMs и наборы данных, связанных с выполнением трасс. Наши результаты показывают, что несмотря на важность семантической информации, её вклад в улучшение SFT и тестовых задач оказался ограниченным. Более того, наши эксперименты демонстрируют, что существующие методы не удается полностью решить проблемы несогласованности и неполноты семантической информации, что ставит под вопрос их использование в практических задачах.
## Значимость
Наши результаты имеют большое значение для области искусственного интеллекта и программирования. Они указывают на необходимость развития более систематичных подходов к интеграции семантической информации в модели Code LLMs. Это может привести к улучшению их точности, универсальности и практического применения в реальных задачах. Мы также выделяем потенциал для дальнейших исследований в области улучшения рассуждений моделей Code LLMs, в том числе развития новых подходов к обработке семантических данных.
## Выводы
Мы демонстрируем ограниченность вклада семантической информации в улучшение SFT и постобучения вывода Code LLMs. Наши результаты вызовут новую д
Abstract
Code Large Language Models (Code LLMs) have opened a new era in programming
with their impressive capabilities. However, recent research has revealed
critical limitations in their ability to reason about runtime behavior and
understand the actual functionality of programs, which poses significant
challenges for their post-training and practical deployment. Specifically, Code
LLMs encounter two principal issues: (1) a lack of proficiency in reasoning
about program execution behavior, as they struggle to interpret what programs
actually do during runtime, and (2) the inconsistent and fragmented
representation of semantic information, such as execution traces, across
existing methods, which hinders their ability to generalize and reason
effectively. These challenges underscore the necessity for more systematic
approaches to enhance the reasoning capabilities of Code LLMs. To address these
issues, we introduce a generic framework to support integrating semantic
information~(e.g., execution trace) to code task-relevant prompts, and conduct
a comprehensive study to explore the role of semantic information in enhancing
the reasoning ability of Code LLMs accordingly. Specifically, we focus on
investigating the usefulness of trace-based semantic information in boosting
supervised fine-tuning~(SFT) and post-phase inference of Code LLMs. The
experimental results surprisingly disagree with previous works and demonstrate
that semantic information has limited usefulness for SFT and test time scaling
of Code LLM.
Ссылки и действия
Дополнительные ресурсы: