Prompt Stability in Code LLMs: Measuring Sensitivity across Emotion- and Personality-Driven Variations

2509.13680v1 cs.SE, cs.AI 2025-09-19
Авторы:

Wei Ma, Yixiao Yang, Jingquan Ge, Xiaofei Xie, Lingxiao Jiang

Резюме на русском

## Контекст Инструменты сгенерированных кодов становятся важной частью развития программного обеспечения, обеспечивая быстроту и эффективность процессов. Однако вопрос их устойчивости к различным стилям и эмоциональным цветовую тунельность не получила должного внимания. Отличительным характеристикой языковых моделей является их чувствительность к тому, как запросы (prompts) сформулированы. Это может привести к разным результатам даже при похожих входных спецификациях. Например, запросы с разными эмоциями или личностными характеристиками могут привести к разным решениям. Несмотря на то, что бенчмарки часто фокусируются на максимальной производительности, менее уделяется внимания стability (устойчивости) в контексте множества вариантов запросов. Для устранения этой проблемы был разработан PromptSE (Prompt Sensitivity Evaluation), который оценивает устойчивость моделей к разным стилям запросов. ## Метод PromptSE работает как фреймворк для оценки устойчивости моделей генерации кода. Он симулирует различные стили запросов, используя шаблоны для эмоций и личностных характеристик. Это позволяет создавать семантически эквивалентные варианты запросов. Метод оценивает устойчивость модели двумя способами: используя продольный скор по вероятностям (logits) или бинарный подход, когда на выходе модели нет logits. Эта модель включает в себя метрику AUC-E (Area Under Curve for Emotion), позволяющую сравнивать модели по устойчивости. Фреймворк может быть использован как для закрытых моделей, так и для исследований в условиях лаборатории. ## Результаты В ходе исследования протестированы 14 моделей генерации кода из трех семейств: Llama, Qwen и DeepSeek. Исследование показало, что производительность и устойчивость работают как независимые цели оптимизации. Некоторые модели (например, Qwen) показали высокую производительность но менее устойчивость, в то время как другие (например, Llama) демонстрировали более стабильные результаты с менее высокой производительностью. Архитектурные и масштабные паттерны были выявлены, которые опровергают типичные представления о робастности моделей. Эти находки подчеркивают, что устойчивость является ключевым аспектом, который должен быть рассмотрен вместе с производительностью и справедливостью в моделировании. ## Значимость Разработанный PromptSE позволяет определить trade-offs между производительностью и устойчивостью, что очень полезно для выбора моделей в зависимости от конкретных задач. Этот фреймворк может применяться в сфере AI-помощников для разработки программного обеспечения, повышая надежность и наглядность. Эта работа расширяет область оценки моделей, добав

Abstract

Code generation models are widely used in software development, yet their sensitivity to prompt phrasing remains under-examined. Identical requirements expressed with different emotions or communication styles can yield divergent outputs, while most benchmarks emphasize only peak performance. We present PromptSE (Prompt Sensitivity Evaluation), a framework that creates semantically equivalent prompt variants with emotion and personality templates, and that evaluates stability using probability aware continuous scoring or using binary pass rates when logits are unavailable. The results are aggregated into a proposed area under curve metric (AUC-E) for cross model comparison. Across 14 models from three families (Llama, Qwen, and DeepSeek), our study shows that performance and stability behave as largely decoupled optimization objectives, and it reveals architectural and scale related patterns that challenge common assumptions about model robustness. The framework supports rapid screening for closed-source models as well as detailed stability analysis in research settings. PromptSE enables practitioners to quantify performance stability trade offs for deployment and model selection, positioning prompt stability as a complementary evaluation dimension alongside performance and fairness, and contributing to more trustworthy AI-assisted software development tools.

Ссылки и действия