Flaw or Artifact? Rethinking Prompt Sensitivity in Evaluating LLMs
2509.01790v1
cs.CL, cs.AI, cs.LG
2025-09-05
Авторы:
Andong Hua, Kenan Tang, Chenhe Gu, Jindong Gu, Eric Wong, Yao Qin
Резюме на русском
## Контекст
В последние годы широко распространена идея, что большие языковые модели (LLM) страдают значительной чувствительностью к стилю выражения (prompt sensitivity), т. е. что подмена формулировок в задании приводит к существенным изменениям в их поведении и результатах. Эта проблема часто приводит к допущению, что LLM имеют недостаточную глубину понимания и гибкости в обработке языка. Однако появились сигналы, что это может быть не только исходной особенностью моделей, но и следствием ограниченности текущих методов оценки. Мотивация для данного исследования кроется в понимании, насколько сильно эта чувствительность связана с моделями, а не с техниками оценки.
## Метод
Для данного исследования были использованы 7 языковых моделей, включая GPT и Gemini, оцененные на 6 различных бенчмарках, которые включали опен-эндж и множественно-выборочные задачи. Эти задачи были проанализированы с использованием 12 различных шаблонов выражения. Авторы использовали две основные техники оценки: традиционную (log-likelihood scoring и rigid answer matching) и новую (LLM-as-a-Judge), чтобы измерить как традиционную, так и новую степень чувствительности к стилю выражения.
## Результаты
Исследование показало, что значительная часть чувствительности к стилю выражения (prompt sensitivity) является следствием традиционных техник оценки. Например, log-likelihood scoring и rigid answer matching часто пропускают семантически корректные ответы, выраженные через альтернативные формулировки (такие как синонимы или парафразы). Когда авторы применяли LLM-as-a-Judge, они обнаружили значительную снижение вариативности показателей, а также увеличение согласованности рейтингов моделей по всем шаблонам. Эти результаты указывают на то, что модели LLM более жизнеспособны по отношению к разнообразию выражений, чем было предполагалось ранее.
## Значимость
Нахождения данного исследования имеют значительные последствия для области глубокого обучения и оптимизации технологий обработки естественного языка. В частности, они показывают, что традиционно принятая мнение о чувствительности LLMs к выражению заданий может быть значительно переоценена. Подход LLM-as-a-Judge может стать более объективным методом оценки, который может быть использован в будущих исследованиях. Эти результаты также открывают новые возможности для улучшения технологий обучения и работы LLM, устраняя существующие ограничения.
## Выводы
В целом, исследование выводит, что значительная часть чувствительности к стилю выражения является следствием ограничений текущих методов оценки, а не недостатков моделей LLM. Это открывает новый взгляд на область оценки языковых
Abstract
Prompt sensitivity, referring to the phenomenon where paraphrasing (i.e.,
repeating something written or spoken using different words) leads to
significant changes in large language model (LLM) performance, has been widely
accepted as a core limitation of LLMs. In this work, we revisit this issue and
ask: Is the widely reported high prompt sensitivity truly an inherent weakness
of LLMs, or is it largely an artifact of evaluation processes? To answer this
question, we systematically evaluate 7 LLMs (e.g., GPT and Gemini family)
across 6 benchmarks, including both multiple-choice and open-ended tasks on 12
diverse prompt templates. We find that much of the prompt sensitivity stems
from heuristic evaluation methods, including log-likelihood scoring and rigid
answer matching, which often overlook semantically correct responses expressed
through alternative phrasings, such as synonyms or paraphrases. When we adopt
LLM-as-a-Judge evaluations, we observe a substantial reduction in performance
variance and a consistently higher correlation in model rankings across
prompts. Our findings suggest that modern LLMs are more robust to prompt
templates than previously believed, and that prompt sensitivity may be more an
artifact of evaluation than a flaw in the models.
Ссылки и действия
Дополнительные ресурсы: