## Контекст
Область искуственного интеллекта (ИИ) на протяжении многих лет была в первую очередь связана с автоматизацией простых задач, таких как обработка текста и вычисления. Однако со временем значительного развития технологий, ИИ начал применяться в более сложных и высокотехнологичных сферах, включая задачи автоматизации программирования. Одной из наиболее затратных и трудоемких задач, с которыми сталкиваются разработчики — это создание программного кода. Использование Large Language Models (LLMs), таких как GPT-4 и Codex, может реvolutionize процесс генерации кода, уменьшая сроки разработки и улучшая качество. Тем не менее, недостатком таких моделей является наличие ошибок, называемых hallucinations — это когда модель генерирует код, кажущийся правильным, но на самом деле содержит синтаксические ошибки, неверные ссылки или несоответствия спецификациям. В данной статье будет освещена проблема hallucinations в LLMs с применением к задачам кодогенерации в автомобильной индустрии, чтобы выявить особенности и потенциальные улучшения таких моделей в контексте сегмента автоматизации.
## Метод
В рамках данного исследования были проведены эксперименты с использованием нескольких LLMs, включая GPT-4.1, Codex и GPT-4o. Для оценки качества генерируемого кода были разработаны три различных уровня сложности:
1. **Minimal Prompt**: Обычный одиночный запрос, без дополнительных контекста.
2. **Prompt with VSS Context**: Запрос, в котором добавлен контекст спецификаций Covesa Vehicle Signal Specification (VSS).
3. **Prompt with Code Skeleton**: Запрос, который включает в себя дополнительный код-скелет, определяющий структуру решения.
Каждый LLM был испытан на этих уровнях сложности, и результаты были измерены на предмет количества синтаксических ошибок, неверных ссылок и несоответствия спецификациям. Эксперименты были проведены в среде с безопасностью и надежностью в виде автомобильной системы, чтобы выявить ошибки, которые могли бы привести к проблемам в действительности.
## Результаты
Результаты экспериментов показали, что хотя LLMs еще имеют некоторые проблемы с генерацией кода, они все же могут быть эффективными при достаточном контексте. На простейшем уровне, где был использован только одиночный запрос, Codex и GPT-4o не смогли выдать корректный результат, а GPT-4.1 немного продвинулся, но не достиг совершенства. Однако, при добавлении VSS-контекста, GPT-4.1 и GPT-4o смогли сгенерировать корректный код, но такие результаты были достигнуты только после нескольких итераций и уточнений запроса. На самом высоком уровне сложности, где была использована дополнительная информация в виде кода-скелета, только GPT-4.1 и GPT-4o смо