Functional Consistency of LLM Code Embeddings: A Self-Evolving Data Synthesis Framework for Benchmarking

2508.19558v1 cs.SE, cs.CL, cs.PL 2025-08-29
Авторы:

Zhuohao Li, Wenqing Chen, Jianxing Yu, Zhichao Lu

Резюме на русском

## Контекст В последние годы текстовые эмбеддинги, полученные из больших языковых моделей (LLMs), доказали свою эффективность в задачах кластеризации, восстановления информации и выделения признаков. Они обладают выгодными показателями производительности и экономичностью в сравнении с генеритивными моделями и кросс-энкодерами. Тем не менее, неизвестно, насколько эффективно эти эмбеддинги отражают функциональную семантику кода. Несмотря на успехи в задачах детектирования клонов кода, они ориентированы на синтаксические сходства и не достаточно учитывают функциональную точку зрения. Наша работа сосредотачивается на изучении функциональной консистенции эмбеддингов LLMs, то есть на вопросе, способны ли эти модели отличить функциональные сходства кода, независимо от его синтаксических различий. ## Метод Мы предлагаем развитый фреймворк для само-эволюционной синтеза данных, называемый "Функционально-ориентированная Само-Эволюция Кода" (Functionality-Oriented Code Self-Evolution, FOCSE). Он стремится создавать разнообразные и сложные бенчмарки для эмбеддингов кода. Мы определяем четыре категории семантических и синтаксических различий, которые отражают различные аспекты функциональных отличий между кодовыми фрагментами. Наш процесс само-эволюции генерирует четыре уникальных вариации из одного исходного кода, позволяя получить более широкий спектр примеров, которые лучше отражают функциональные отличия. Этот подход позволяет оценивать эмбеддинги кода не только с точки зрения их синтаксических свойств, но и их возможности понимать функциональную семантику. ## Результаты Мы провели исследования на трех задачах: детектирование клонов кода, идентификацию функциональной консистенции кода и поиск кода. Наши эксперименты показали, что при обучении эмбеддингов LLMs на наших само-эволюционных данных, производительность этих моделей наползла на новые высоты. Ключевым показателем стала возможность эмбеддингов отличать функциональные сходства кода независимо от их синтаксических различий. Это демонстрирует значительный потенциал нашего подхода в создании более глубокого понимания функциональных мотивов кода. ## Значимость Наш фреймворк может иметь широкое применение в разработке и тестировании моделей, ориентированных на работу с кодом. Он предлагает уникальные возможности для повышения точности и глубины анализа функциональных свойств кода, что может быть критически важно для таких задач, как автоматическое документирование, поиск и устранение ошибок. Мы также видим будущие направления в расширении этого подхода для других типов неструктурированных данных, таких как множествен

Abstract

Embedding models have demonstrated strong performance in tasks like clustering, retrieval, and feature extraction while offering computational advantages over generative models and cross-encoders. Benchmarks such as MTEB have shown that text embeddings from large language models (LLMs) capture rich semantic information, but their ability to reflect code-level functional semantics remains unclear. Existing studies largely focus on code clone detection, which emphasizes syntactic similarity and overlooks functional understanding. In this paper, we focus on the functional consistency of LLM code embeddings, which determines if two code snippets perform the same function regardless of syntactic differences. We propose a novel data synthesis framework called Functionality-Oriented Code Self-Evolution to construct diverse and challenging benchmarks. Specifically, we define code examples across four semantic and syntactic categories and find that existing datasets predominantly capture syntactic properties. Our framework generates four unique variations from a single code instance, providing a broader spectrum of code examples that better reflect functional differences. Extensive experiments on three downstream tasks-code clone detection, code functional consistency identification, and code retrieval-demonstrate that embedding models significantly improve their performance when trained on our evolved datasets. These results highlight the effectiveness and generalization of our data synthesis framework, advancing the functional understanding of code.

Ссылки и действия