Evaluating Large Language Models for Functional and Maintainable Code in Industrial Settings: A Case Study at ASML
2509.12395v1
cs.SE, cs.AI
2025-09-18
Авторы:
Yash Mundhra, Max Valk, Maliheh Izadi
Резюме на русском
#### Контекст
Large language models (LLMs) показали впечатляющие результаты в области генерации кода для различных доменов. Однако их применение в промышленных средах, где существуют доменно-специфические ограничения и сложные интеграционные зависимости, до сих пор значительно не исследовано. Мы провели исследование в сотрудничестве с уровнем ASML, чтобы изучить результативность LLMs в создании функционального и поддерживаемого кода в закрытой, высокоспециализированной программной среде. Целью нашего исследования было оценить эффективность LLMs в промышленных условиях и сравнить различные техники подсказок, размеры моделей и типы моделей.
#### Метод
Мы разработали фреймворк для оценки LLMs, ориентированный на кодовую базу ASML, и внедрили новый бенчмарк. Ключевым элементом этого фреймворка является новый метрика, build@k, которая определяет успешность сборки LLM-генерируемого кода в реальных промышленных репозиториях. Мы проводили эксперименты с различными техниками подсказок, включая match-based и execution-based оценки. Мы также сравнивали общие модели языковых моделей с кодовыми-специализированными моделями, а также исследовали эффект размера модели на качество генерируемого кода.
#### Результаты
Наши эксперименты показали, что техники подсказок, такие как few-shot и chain-of-thought, существенно повышают успешность сборки LLM-кода. Отличия в производительности между кодовыми-специализированными и общими LLMs были менее выражены и отличались в зависимости от фамилий моделей. Мы также обнаружили, что размер модели оказывает значительное влияние на качество генерируемого кода, а влияние различных техник подсказок на различных моделях проявляется разным образом.
#### Значимость
Наши результаты имеют практическую значимость для промышленных пользователей LLMs, которые стремятся обеспечить функциональность и поддерживаемость кода. Мы демонстрируем, что LLMs могут быть эффективно применены в промышленных средах с достаточным фреймворком оценки и техниками подсказок. Наши работы также открывают возможности для будущих исследований в области улучшения техник подсказок и оптимизации размера модели для промышленного применения.
#### Выводы
Мы показали, что LLMs могут функционировать эффективно в промышленных средах при применении оптимальных техник подсказок и фреймворков оценки. Будущие исследования будут сфокусированы на улучшении техник подсказок, оптимизации размера модели и расширении применения LLMs в дополнительных промышленных средах.
Abstract
Large language models have shown impressive performance in various domains,
including code generation across diverse open-source domains. However, their
applicability in proprietary industrial settings, where domain-specific
constraints and code interdependencies are prevalent, remains largely
unexplored. We present a case study conducted in collaboration with the
leveling department at ASML to investigate the performance of LLMs in
generating functional, maintainable code within a closed, highly specialized
software environment.
We developed an evaluation framework tailored to ASML's proprietary codebase
and introduced a new benchmark. Additionally, we proposed a new evaluation
metric, build@k, to assess whether LLM-generated code successfully compiles and
integrates within real industrial repositories. We investigate various
prompting techniques, compare the performance of generic and code-specific
LLMs, and examine the impact of model size on code generation capabilities,
using both match-based and execution-based metrics. The findings reveal that
prompting techniques and model size have a significant impact on output
quality, with few-shot and chain-of-thought prompting yielding the highest
build success rates. The difference in performance between the code-specific
LLMs and generic LLMs was less pronounced and varied substantially across
different model families.
Ссылки и действия
Дополнительные ресурсы: