More Than a Score: Probing the Impact of Prompt Specificity on LLM Code Generation
2508.03678v1
cs.CL, cs.LG, cs.PL
2025-08-09
Авторы:
Yangtian Zi, Harshitha Menon, Arjun Guha
Резюме на русском
**Резюме**
Современные горячие языковые модели (LLMs) показывают высокую эффективность на общих тестах, таких как HumanEval, но слабо выполняются на специализированных задачах, таких как ParEval. Данная статья рассматривает, является ли это ограничением в достаточности доменных знаний LLMs или недостаточностью детализации запросов (prompts). Для этого авторы представляют PartialOrderEval — метод, который добавляет полю тестирования новый аспект: прослеживание изменения производительности (pass@1) при увеличении детализации запросов, от минимального до максимального. Эксперименты проводились на HumanEval, а также на подвыборках ParEval (серийные и OpenMP). Результаты с LLMs типа Llama-3.x и Qwen2.5-Coder показали различия в чувствительности к детализации запросов в зависимости от типа задачи. Квалитиативный анализ выявил, что ключевые факторы, влияющие на улучшение производительности, являются четкое указание ввода-вывода, тестирование на крайних случаях и разбиение задачи на пошаговые этапы.
Abstract
State-of-the-art Large Language Models (LLMs) achieve high pass@1 on general
benchmarks like HumanEval but underperform on specialized suites such as
ParEval. Is this due to LLMs missing domain knowledge or insufficient prompt
detail is given? To answer this, we introduce PartialOrderEval, which augments
any code generation benchmark with a partial order of prompts from minimal to
maximally detailed. Applying it to HumanEval and both serial and OpenMP subsets
of ParEval, we measure how pass@1 scales with prompt specificity. Our
experiments with Llama-3.x and Qwen2.5-Coder demonstrate varying degrees of
prompt sensitivity across different tasks, and a qualitative analysis
highlights explicit I/O specifications, edge-case handling, and stepwise
breakdowns as the key drivers of prompt detail improvement.
Ссылки и действия
Дополнительные ресурсы: