Do Code Semantics Help? A Comprehensive Study on Execution Trace-Based Information for Code Large Language Models

2509.11686v1 cs.SE, cs.AI 2025-09-17
Авторы:

Jian Wang, Xiaofei Xie, Qiang Hu, Shangqing Liu, Yi Li

Резюме на русском

## Контекст Код Large Language Models (Code LLMs) представляют собой мощные инструменты, которые позволяют делать прогнастические выводы по коду на естественном языке. Однако, несмотря на их великолепные возможности, они сталкиваются с рядом критических ограничений. Одна из проблем заключается в том, что они имеют ограниченную способность принимать решения в области выполнения программ, не умеют делать работу по пониманию того, что программа делает во время выполнения. Другая проблема заключается в том, что методы семантической информации, такие как исполнение трасс, представлены в различных формах, что усложняет стабильность и универсальность. Эти проблемы требуют новых и гибких подходов к усовершенствованию моделей. ## Метод В качестве решения мы предлагаем интегрировать семантические данные, такие как исполнение трасс, в код задачно-релевантных кардиналов модели. Мы разрабатываем общую рамочную структуру, которая позволяет эффективно интегрировать эти данные в подготовительный этап и использовать их во время работы модели. Мы исследуем это на примерах, включая наборы данных, относящиеся к прикладным программированию. Это позволит нам узнать, как эти семантические данные влияют на способность моделей принимать решения. ## Результаты Мы проводим эксперименты с различными моделями Code LLMs и используем разные наборы данных. Мы изучаем, насколько наличие информации о выполнении помогает в повышении точности и способности моделей принимать решения. Однако наши результаты отличаются от предыдущих работ, показывая, что информация о выполнении не оказывает существенного влияния на точность или моделирование моделей во время тестирования. ## Значимость Наши результаты показывают, что семантическая информация, такая как исполнение трасс, не имеет значительного влияния на функциональность и повышение точности моделей Code LLMs. Это может иметь последствия для применения моделей в реальных задачах и для разработки будущих моделей, которые могут быть более эффективными в отсутствии этой информации. ## Выводы Мы показали, что информация о выполнении может не всегда улучшать работу Code LLMs. Наша работа открывает новые подходы к усовершенствованию интеграции семантических данных в модели Code LLMs, что может привести к дальнейшим исследованиям и улучшениям в данной области.

Abstract

Code Large Language Models (Code LLMs) have opened a new era in programming with their impressive capabilities. However, recent research has revealed critical limitations in their ability to reason about runtime behavior and understand the actual functionality of programs, which poses significant challenges for their post-training and practical deployment. Specifically, Code LLMs encounter two principal issues: (1) a lack of proficiency in reasoning about program execution behavior, as they struggle to interpret what programs actually do during runtime, and (2) the inconsistent and fragmented representation of semantic information, such as execution traces, across existing methods, which hinders their ability to generalize and reason effectively. These challenges underscore the necessity for more systematic approaches to enhance the reasoning capabilities of Code LLMs. To address these issues, we introduce a generic framework to support integrating semantic information~(e.g., execution trace) to code task-relevant prompts, and conduct a comprehensive study to explore the role of semantic information in enhancing the reasoning ability of Code LLMs accordingly. Specifically, we focus on investigating the usefulness of trace-based semantic information in boosting supervised fine-tuning~(SFT) and post-phase inference of Code LLMs. The experimental results surprisingly disagree with previous works and demonstrate that semantic information has limited usefulness for SFT and test time scaling of Code LLM.

Ссылки и действия