Flaw or Artifact? Rethinking Prompt Sensitivity in Evaluating LLMs

2509.01790v1 cs.CL, cs.AI, cs.LG 2025-09-05
Авторы:

Andong Hua, Kenan Tang, Chenhe Gu, Jindong Gu, Eric Wong, Yao Qin

Резюме на русском

## Контекст В последние годы широко распространена идея, что большие языковые модели (LLM) страдают значительной чувствительностью к стилю выражения (prompt sensitivity), т. е. что подмена формулировок в задании приводит к существенным изменениям в их поведении и результатах. Эта проблема часто приводит к допущению, что LLM имеют недостаточную глубину понимания и гибкости в обработке языка. Однако появились сигналы, что это может быть не только исходной особенностью моделей, но и следствием ограниченности текущих методов оценки. Мотивация для данного исследования кроется в понимании, насколько сильно эта чувствительность связана с моделями, а не с техниками оценки. ## Метод Для данного исследования были использованы 7 языковых моделей, включая GPT и Gemini, оцененные на 6 различных бенчмарках, которые включали опен-эндж и множественно-выборочные задачи. Эти задачи были проанализированы с использованием 12 различных шаблонов выражения. Авторы использовали две основные техники оценки: традиционную (log-likelihood scoring и rigid answer matching) и новую (LLM-as-a-Judge), чтобы измерить как традиционную, так и новую степень чувствительности к стилю выражения. ## Результаты Исследование показало, что значительная часть чувствительности к стилю выражения (prompt sensitivity) является следствием традиционных техник оценки. Например, log-likelihood scoring и rigid answer matching часто пропускают семантически корректные ответы, выраженные через альтернативные формулировки (такие как синонимы или парафразы). Когда авторы применяли LLM-as-a-Judge, они обнаружили значительную снижение вариативности показателей, а также увеличение согласованности рейтингов моделей по всем шаблонам. Эти результаты указывают на то, что модели LLM более жизнеспособны по отношению к разнообразию выражений, чем было предполагалось ранее. ## Значимость Нахождения данного исследования имеют значительные последствия для области глубокого обучения и оптимизации технологий обработки естественного языка. В частности, они показывают, что традиционно принятая мнение о чувствительности LLMs к выражению заданий может быть значительно переоценена. Подход LLM-as-a-Judge может стать более объективным методом оценки, который может быть использован в будущих исследованиях. Эти результаты также открывают новые возможности для улучшения технологий обучения и работы LLM, устраняя существующие ограничения. ## Выводы В целом, исследование выводит, что значительная часть чувствительности к стилю выражения является следствием ограничений текущих методов оценки, а не недостатков моделей LLM. Это открывает новый взгляд на область оценки языковых

Abstract

Prompt sensitivity, referring to the phenomenon where paraphrasing (i.e., repeating something written or spoken using different words) leads to significant changes in large language model (LLM) performance, has been widely accepted as a core limitation of LLMs. In this work, we revisit this issue and ask: Is the widely reported high prompt sensitivity truly an inherent weakness of LLMs, or is it largely an artifact of evaluation processes? To answer this question, we systematically evaluate 7 LLMs (e.g., GPT and Gemini family) across 6 benchmarks, including both multiple-choice and open-ended tasks on 12 diverse prompt templates. We find that much of the prompt sensitivity stems from heuristic evaluation methods, including log-likelihood scoring and rigid answer matching, which often overlook semantically correct responses expressed through alternative phrasings, such as synonyms or paraphrases. When we adopt LLM-as-a-Judge evaluations, we observe a substantial reduction in performance variance and a consistently higher correlation in model rankings across prompts. Our findings suggest that modern LLMs are more robust to prompt templates than previously believed, and that prompt sensitivity may be more an artifact of evaluation than a flaw in the models.

Ссылки и действия