📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Measuring LLM Code Generation Stability via Structural Entropy

2025-08-22

Авторы:

Yewei Song, Tiezhu Sun, Xunzhu Tang, Prateek Rajput, Tegawende F. Bissyande, Jacques Klein

## Контекст Оценка стабильности генерации кода в крупных языковых моделях (LLM) является ключевым аспектом оценки их надежности в реальном мире. Несмотря на развитие технологий, существуют проблемы, такие как недостаточная универсальность и недостаточная транспарентность в процессе генерации кода. Эти проблемы напрямую влияют на доверие разработчиков к LLM. Для решения этого вызвано внимание на методы, которые могут измерить и проанализировать стабильность генерации кода. В статье предлагается расширенная парадигма "структурной энтропии", которая может быть применена к абстрактным синтаксическим деревьям (AST), чтобы измерить стабильность генерации кода. ## Метод В статье рассматривается расширенная концепция "структурной энтропии", применяемая к программному коду. На основе абстрактных синтаксических деревьев (AST) полученных из программ, созданных LLMs, вводятся две метрики для измерения стабильности. Первая метрика — Jensen-Shannon Divergence, измеряет степень сходства различных AST. Вторая метрика — Structural Cross-Entropy Ratio, выявляет отсутствие высоко-вероятных узлов в AST. На основе этих метрик можно определить контрольную форму кода и точность генерации токенов. Метод является агностичным к языку и не требует сравнения с оригиналом, что делает его универсальным и эффективным для различных типов кода. ## Результаты В ходе экспериментов были измерены уровни стабильности генерации кода нескольких лидирующих LLMs. Использовались стандартные кодовые задачи, позволяющие изучить различные аспекты генерации кода, включая контрольную форму и точность генерации токенов. Были получены результаты, показывающие различия в стабильности генерации кода между LLMs. Метод AST-driven structural entropy показал высокую степень детализации в измерении стабильности, включая контрольную форму и точность токенов. ## Значимость Метод, описанный в статье, может быть использован в различных областях, включая выявление проблем в LLMs, а также в создании более надежного и понятного кода. Его применение позволяет выявлять проблемы в коде, такие как несогласованность в генерации контрольных форм и токенов. Это может привести к улучшению качества кода и уменьшению риска ошибок в реальных приложениях. Также может быть использован как универсальный инструмент для сравнения различных LLMs. ## Выводы В статье был представлен новый подход к измерению стабильности генерации кода с использованием структурной энтропии и AST-анализа. Этот подход позволил выявить детализированные различия в стабильности LLMs и показал себя как эффективный инструмент для оценки кода. В дальнейших

Annotation:

Assessing the stability of code generation from large language models (LLMs) is essential for judging their reliability in real-world development. We extend prior "structural-entropy concepts" to the program domain by pairing entropy with abstract syntax tree (AST) analysis. For any fixed prompt, we collect the multiset of depth-bounded subtrees of AST in each generated program and treat their relative frequencies as a probability distribution. We then measure stability in two complementary ways...

ID: 2508.14288v1 cs.SE, cs.CL

arXiv PDF

📄 SaraCoder: Orchestrating Semantic and Structural Cues for Profit-Oriented Repository-Level Code Completion

2025-08-16

Авторы:

Xiaohan Chen, Zhongying Pan, Quan Feng, Yu Tian, Shuqun Yang, Mengru Wang, Lina Gong, Yuxia Geng, Piji Li, Xiang Chen

## Контекст Современные системы подсчета кода хорошо успешно решают задачи в локальной области кода, но сталкиваются с рядом проблем при работе на уровне репозитория. Наиболее значимыми проблемами являются следующие: 1. **Semantic misguidance**: Отсутствие глубокого понимания семантических отношений между фрагментами кода приводит к результатам, которые не только не подходят по смыслу, но и порождают нежелательную редундантность и монотонность. 2. **External symbol ambiguity**: Невозможность точно определить внешние символы приводит к ситуациям, когда рекомендации кода не только неудобны, но и могут стать неприемлемыми в контексте задачи. 3. **Text-similarity bias**: Использование только текстовых синтаксических сигналов приводит к ограниченности в результатах и к снижению их качества. `Saracoder` - это система, которая предлагает новый подход к решению этих проблем, ориентируясь на **semantic and structural cues** (семантические и структурные признаки). Эта система использует **Hierarchical Feature Optimization** для активной извлечения и систематического оптимизации результатов поиска, а также **External-Aware Identifier Disambiguator** для решения внешней символьной неоднозначности. ## Метод Проект `Saracoder` основывается на **Hierarchical Feature Optimization**, разработанном для решения проблем семантического и структурного размышления в коде. Методология включает следующие компоненты: 1. **Hierarchical Feature Optimization Module**: - Извлекает глубокие семантические отношения между фрагментами кода. - Выполняет поиск и удаление дубликатов, при этом используя **Novel Graph-Based Metric**, который определяет важность топологических редакций. - Выполняет ре-ранжирование результатов для максимального баланса между **релевантностью** и **разнообразием**. 2. **External-Aware Identifier Disambiguator**: - Улучшает точность поиска и рекомендации кода путем **dependency analysis**. - Обеспечивает решение внешней неоднозначности в символьных связях, работая на уровне **cross-file** и **cross-repository**. Элементы этого фреймворка сочетаются для создания системы, которая не только предлагает более точные рекомендации, но и делает их более уникальными и релевантными в контексте задач репозитория. ## Результаты Работа была проверена на **CrossCodeEval** и **RepoEval-Updated**, крупных датасетах для оценки результатов поиска в коде. Основные результаты: - **Improved relevance and diversity**: Сравнительное тестирование показало, что `Saracoder` превосходит существующие базы, демонстрируя статистически значимую улучшенность показателей качества рекомендаций. - **Addressing external symbol ambiguity**: Тестирование системы показало, что решение внешней символьной неоднозначности (External-Aware Identifier Disambiguator) позволяет повысить точность рекомендаций при работе с внешними символами. - **Cross-Language Performance**: Результаты проверки показали, что `Saracoder` демонстрирует высокую эффе

Annotation:

Retrieval-augmented generation (RAG) for repository-level code completion commonly relies on superficial text similarity, leading to results plagued by semantic misguidance, redundancy, and homogeneity, while also failing to resolve external symbol ambiguity. To address these challenges, we introduce Saracoder, a Hierarchical Feature-Optimized retrieval framework. Its core Hierarchical Feature Optimization module systematically refines candidates by distilling deep semantic relationships, prunin...

ID: 2508.10068v1 cs.SE, cs.CL, cs.IR, cs.PL

arXiv PDF

📄 Position: Intelligent Coding Systems Should Write Programs with Justifications

2025-08-12

Авторы:

Xiangzhe Xu, Shiwei Feng, Zian Su, Chengpeng Wang, Xiangyu Zhang

## Контекст Современные интеллектуальные системы кодирования (Intelligent Coding Systems, ICS) представляют собой мощные инструменты, позволяющие пользователям определять поведение программ при помощи естественного языка. Эти системы обеспечивают удобство использования и эффективность разработки, но при этом имеют значительные недостатки. Одной из основных проблем является непрозрачность решений, принятых системой, которая может вызвать недоверие у пользователей, особенно если они не обладают глубокими знаниями программирования. Несомненно, лучшие результаты получаются, когда пользователь может понять, как и почему система пришла к определенному решению. В настоящее время актуальной является проблема недостатка надежности в системах кодирования, поскольку часто невозможно проверить точность решений, особенно при работе с различными сценариями. Это вызывает затруднения в понимании пользователями того, что происходит внутри систем, что, в свою очередь, может привести к ошибкам в процессе разработки и уменьшить эффективность работы. Одним из решений могут быть ясные, понятные пользователю, причины и логика программ, которые бы служили визуальным инструментом для проверки и понимания решений системы. ## Метод Для решения этой проблемы в статье предлагается использовать нейро-символьные методы (Neuro-Symbolic Approaches), которые объединяют нейронные и символьные подходы в одной системе. За основу взят подход, где символьные правила и контрольные механизмы используются для улучшения понимания и структуры программ, а нейронные модели используются для повышения точности, адаптивности и скорости выполнения. Символьные подходы включают традиционные методы проверки и анализа программ, такие как статический анализ и проверка типов, которые позволяют обеспечить целостность программного кода. Нейронные модели, в свою очередь, позволяют строить более точные и природно понятные решения, которые будут оптимизированы для решения конкретных задач. ## Результаты В рамках исследования был проведен набор экспериментов, в которых были использованы различные наборы данных для проверки работы интеллектуальных систем кодирования. В ходе эксперимента было проанализировано, насколько эффективны нейро-символьные подходы для улучшения понимания пользователями. Было показано, что системы, включающие в себя нейро-символьные методы, показали значительно лучшие результаты в сравнении с методами, основанными только на нейронных моделях. В результате экспериментов было показано, что нейро-символьные модели могут генерировать более точные и понятные программы, что позволяет улучшить понимание пользователями решений, а также уменьшить потенциальные ошибки в про

Annotation:

Intelligent coding systems are transforming software development by enabling users to specify code behavior in natural language. However, the opaque decision-making of AI-driven coders raises trust and usability concerns, particularly for non-expert users who cannot inspect low-level implementations. We argue that these systems should not only generate code but also produce clear, consistent justifications that bridge model reasoning and user understanding. To this end, we identify two critical ...

ID: 2508.06017v1 cs.SE, cs.CL, cs.LG

arXiv PDF

Показано 31 - 33 из 33 записей