Hallucination in LLM-Based Code Generation: An Automotive Case Study

2508.11257v1 cs.SE, cs.AI 2025-08-19
Авторы:

Marc Pavel, Nenad Petrovic, Lukasz Mazur, Vahid Zolfaghari, Fengjunjie Pan, Alois Knoll

Резюме на русском

## Контекст Область искуственного интеллекта (ИИ) на протяжении многих лет была в первую очередь связана с автоматизацией простых задач, таких как обработка текста и вычисления. Однако со временем значительного развития технологий, ИИ начал применяться в более сложных и высокотехнологичных сферах, включая задачи автоматизации программирования. Одной из наиболее затратных и трудоемких задач, с которыми сталкиваются разработчики — это создание программного кода. Использование Large Language Models (LLMs), таких как GPT-4 и Codex, может реvolutionize процесс генерации кода, уменьшая сроки разработки и улучшая качество. Тем не менее, недостатком таких моделей является наличие ошибок, называемых hallucinations — это когда модель генерирует код, кажущийся правильным, но на самом деле содержит синтаксические ошибки, неверные ссылки или несоответствия спецификациям. В данной статье будет освещена проблема hallucinations в LLMs с применением к задачам кодогенерации в автомобильной индустрии, чтобы выявить особенности и потенциальные улучшения таких моделей в контексте сегмента автоматизации. ## Метод В рамках данного исследования были проведены эксперименты с использованием нескольких LLMs, включая GPT-4.1, Codex и GPT-4o. Для оценки качества генерируемого кода были разработаны три различных уровня сложности: 1. **Minimal Prompt**: Обычный одиночный запрос, без дополнительных контекста. 2. **Prompt with VSS Context**: Запрос, в котором добавлен контекст спецификаций Covesa Vehicle Signal Specification (VSS). 3. **Prompt with Code Skeleton**: Запрос, который включает в себя дополнительный код-скелет, определяющий структуру решения. Каждый LLM был испытан на этих уровнях сложности, и результаты были измерены на предмет количества синтаксических ошибок, неверных ссылок и несоответствия спецификациям. Эксперименты были проведены в среде с безопасностью и надежностью в виде автомобильной системы, чтобы выявить ошибки, которые могли бы привести к проблемам в действительности. ## Результаты Результаты экспериментов показали, что хотя LLMs еще имеют некоторые проблемы с генерацией кода, они все же могут быть эффективными при достаточном контексте. На простейшем уровне, где был использован только одиночный запрос, Codex и GPT-4o не смогли выдать корректный результат, а GPT-4.1 немного продвинулся, но не достиг совершенства. Однако, при добавлении VSS-контекста, GPT-4.1 и GPT-4o смогли сгенерировать корректный код, но такие результаты были достигнуты только после нескольких итераций и уточнений запроса. На самом высоком уровне сложности, где была использована дополнительная информация в виде кода-скелета, только GPT-4.1 и GPT-4o смо

Abstract

Large Language Models (LLMs) have shown significant potential in automating code generation tasks offering new opportunities across software engineering domains. However, their practical application remains limited due to hallucinations - outputs that appear plausible but are factually incorrect, unverifiable or nonsensical. This paper investigates hallucination phenomena in the context of code generation with a specific focus on the automotive domain. A case study is presented that evaluates multiple code LLMs for three different prompting complexities ranging from a minimal one-liner prompt to a prompt with Covesa Vehicle Signal Specifications (VSS) as additional context and finally to a prompt with an additional code skeleton. The evaluation reveals a high frequency of syntax violations, invalid reference errors and API knowledge conflicts in state-of-the-art models GPT-4.1, Codex and GPT-4o. Among the evaluated models, only GPT-4.1 and GPT-4o were able to produce a correct solution when given the most context-rich prompt. Simpler prompting strategies failed to yield a working result, even after multiple refinement iterations. These findings highlight the need for effective mitigation techniques to ensure the safe and reliable use of LLM generated code, especially in safety-critical domains such as automotive software systems.

Ссылки и действия