Evaluating Large Language Models for Functional and Maintainable Code in Industrial Settings: A Case Study at ASML

2509.12395v1 cs.SE, cs.AI 2025-09-18
Авторы:

Yash Mundhra, Max Valk, Maliheh Izadi

Резюме на русском

#### Контекст Large language models (LLMs) показали впечатляющие результаты в области генерации кода для различных доменов. Однако их применение в промышленных средах, где существуют доменно-специфические ограничения и сложные интеграционные зависимости, до сих пор значительно не исследовано. Мы провели исследование в сотрудничестве с уровнем ASML, чтобы изучить результативность LLMs в создании функционального и поддерживаемого кода в закрытой, высокоспециализированной программной среде. Целью нашего исследования было оценить эффективность LLMs в промышленных условиях и сравнить различные техники подсказок, размеры моделей и типы моделей. #### Метод Мы разработали фреймворк для оценки LLMs, ориентированный на кодовую базу ASML, и внедрили новый бенчмарк. Ключевым элементом этого фреймворка является новый метрика, build@k, которая определяет успешность сборки LLM-генерируемого кода в реальных промышленных репозиториях. Мы проводили эксперименты с различными техниками подсказок, включая match-based и execution-based оценки. Мы также сравнивали общие модели языковых моделей с кодовыми-специализированными моделями, а также исследовали эффект размера модели на качество генерируемого кода. #### Результаты Наши эксперименты показали, что техники подсказок, такие как few-shot и chain-of-thought, существенно повышают успешность сборки LLM-кода. Отличия в производительности между кодовыми-специализированными и общими LLMs были менее выражены и отличались в зависимости от фамилий моделей. Мы также обнаружили, что размер модели оказывает значительное влияние на качество генерируемого кода, а влияние различных техник подсказок на различных моделях проявляется разным образом. #### Значимость Наши результаты имеют практическую значимость для промышленных пользователей LLMs, которые стремятся обеспечить функциональность и поддерживаемость кода. Мы демонстрируем, что LLMs могут быть эффективно применены в промышленных средах с достаточным фреймворком оценки и техниками подсказок. Наши работы также открывают возможности для будущих исследований в области улучшения техник подсказок и оптимизации размера модели для промышленного применения. #### Выводы Мы показали, что LLMs могут функционировать эффективно в промышленных средах при применении оптимальных техник подсказок и фреймворков оценки. Будущие исследования будут сфокусированы на улучшении техник подсказок, оптимизации размера модели и расширении применения LLMs в дополнительных промышленных средах.

Abstract

Large language models have shown impressive performance in various domains, including code generation across diverse open-source domains. However, their applicability in proprietary industrial settings, where domain-specific constraints and code interdependencies are prevalent, remains largely unexplored. We present a case study conducted in collaboration with the leveling department at ASML to investigate the performance of LLMs in generating functional, maintainable code within a closed, highly specialized software environment. We developed an evaluation framework tailored to ASML's proprietary codebase and introduced a new benchmark. Additionally, we proposed a new evaluation metric, build@k, to assess whether LLM-generated code successfully compiles and integrates within real industrial repositories. We investigate various prompting techniques, compare the performance of generic and code-specific LLMs, and examine the impact of model size on code generation capabilities, using both match-based and execution-based metrics. The findings reveal that prompting techniques and model size have a significant impact on output quality, with few-shot and chain-of-thought prompting yielding the highest build success rates. The difference in performance between the code-specific LLMs and generic LLMs was less pronounced and varied substantially across different model families.

Ссылки и действия