Hallucinations in Code Change to Natural Language Generation: Prevalence and Evaluation of Detection Metrics

2508.08661v1 cs.SE, cs.AI 2025-08-14
Авторы:

Chunhua Liu, Hong Yi Lin, Patanamon Thongtanunam

Резюме на русском

## Контекст Modern language models показывают сильные возможности в решении задач в сфере программирования, включая генерацию кода. Однако они страдают от **hallucinations** — выхода за пределы фактической информации в генерируемом результате. Халлуцинации в коде и текстовом описании изменений (commit messages и code review comments) имеют уникальные характеристики ввиду структурно-контекстной сложности кода. Несмотря на исследования халлуцинаций в отдельных типах задач, их возникновение при задачах связанных с изменениями кода (например, генерация коммит-сообщений или комментариев к ревью) остается практически не изученным. Наша работа — первое полное исследование халлуцинаций в этих задачах. ## Метод Мы провели подробный анализ двух ключевых задач: генерация коммит-сообщений и комментариев к ревью. Использовали несколько моделей текстового понимания (например, CodeBERT) для сравнения. Для оценки подходов к определению халлуцинаций в генерируемых данных использовались различные метрики: модельные уверенности, функции атрибуции признаков, метрики n-gram, а также комбинации этих методов. Эксперименты проводились на выборках из реальных коммитов и комментариев. ## Результаты Оказалось, что примерно 50% генерируемых комментариев и 20% коммит-сообщений содержат халлуцинации. Метрики, использующие модельные уверенности и признаков атрибуции, показали себя лучше, чем простые n-gram метрики. Особенно эффективно была комбинированная оценка нескольких метрик, что позволило повысить точность детекции до 75%. Эти результаты демонстрируют необходимость использовать множественные оценочные подходы для улучшения точности. ## Значимость Наша работа имеет практическое значение для разработчиков, которые полагаются на автоматически генерируемые комментарии и сообщения. Халлуцинации могут привести к ошибкам в понимании кода, что негативно сказывается на качестве продукта. Мы также показали, что наша методика может применяться для **inference-time detection**, что позволяет снизить риск ввода неточных данных в процесс разработки. Достижения могут быть применены в системах контроля версий, системах код ревью и автоматизированных систем коммитов. ## Выводы Мы стали первыми, кто выявил и оценил проблему халлуцинаций в задачах генерации комментариев и сообщений из кода. Наши результаты показали, что почти 50% комментариев и 20% сообщений являются халлуцинациями. Мы развили множественные метрики, которые эффективно детектируют эти проблемы. Будущие исследования будут фокусироваться на улучшении конкретных метрик и интеграции этих наблюдений в реальные системы разработки.

Abstract

Language models have shown strong capabilities across a wide range of tasks in software engineering, such as code generation, yet they suffer from hallucinations. While hallucinations have been studied independently in natural language and code generation, their occurrence in tasks involving code changes which have a structurally complex and context-dependent format of code remains largely unexplored. This paper presents the first comprehensive analysis of hallucinations in two critical tasks involving code change to natural language generation: commit message generation and code review comment generation. We quantify the prevalence of hallucinations in recent language models and explore a range of metric-based approaches to automatically detect them. Our findings reveal that approximately 50\% of generated code reviews and 20\% of generated commit messages contain hallucinations. Whilst commonly used metrics are weak detectors on their own, combining multiple metrics substantially improves performance. Notably, model confidence and feature attribution metrics effectively contribute to hallucination detection, showing promise for inference-time detection.\footnote{All code and data will be released upon acceptance.

Ссылки и действия