When Punctuation Matters: A Large-Scale Comparison of Prompt Robustness Methods for LLMs

2508.11383v1 cs.CL, cs.AI 2025-08-19
Авторы:

Mikhail Seleznyov, Mikhail Chaichuk, Gleb Ershov, Alexander Panchenko, Elena Tutubalina, Oleg Somov

Резюме на русском

#### Контекст Large Language Models (LLMs) являются высокоточными инструментами с практическими применениями во многих областях, но остаются чувствительными к незначительным несемантическим изменениям в формате и фразировании запросов. Эти нюансы могут привести к непоследовательным результатам. Улучшение прочности запросов к LLMs является ключевым заданием для обеспечения надежности и последовательности их ответов в реальных сценариях применения. Несмотря на существование нескольких подходов к повышению прочности запросов, существует недостаток в систематических исследованиях, сравнивающих эти методы в одной экспериментальной модели. Этот отсутствующий аспект стало мотивацией для настоящего исследования. #### Метод Мы осуществили подробную оценку пяти методов улучшения прочности запросов к LLMs: 1. **Позиционирование запросов (Prompt Positioning)** — изменение порядка слов в запросе. 2. **Обратный фрагмент (Reverse Fragment)** — добавление обратных версий фрагментов запроса. 3. **Перефразирование (Rewording)** — изменение формулировки запроса, оставив смысл нетронутым. 4. **Удаление знаков препинания (Punctuation Removal)** — удаление всех знаков препинания. 5. **Добавление случайных слов (Random Words Addition)** — добавление случайных слов в запрос. Тестирование проводилось на 8 моделях LLM, включая Llama, Qwen и Gemma, на 52 задачах из Natural Instructions dataset. Мы использовали подходы из области как традиционных методов (fine-tuning), так и бейджинговых (in-context learning), чтобы получить сложившуюся экспериментальную модель. #### Результаты Мы выполнили ряд экспериментов, которые позволили сравнить эффективность различных методов улучшения прочности запросов. Для этого мы использовали различные типы распределенных сдвигов данных, чтобы оценить общую гибкость и стабильность. Наши результаты показали, что **Позиционирование запросов** и **Перефразирование** показали самые высокие показатели прочности, особенно в случае распределенных сдвигов. Метод **Удаления знаков препинания**, несмотря на простоту, также продемонстрировал значительные улучшения в некоторых случаях. #### Значимость Наши результаты имеют широкое применение в различных сферах, включая обработку естественного языка, системы рекомендаций и диалоговые системы. Методы, которые мы описали, могут помочь улучшить надежность и производительность LLMs в реальных условиях. Это также может способствовать развитию новых методов для повышения прочности и стабильности LLMs в области обработки естественного языка. #### Выводы Мы представили первый систематический эксперимент, сравнивающий методы улучшения прочности запросов к LLMs в рамках единой модели. Наши находки демонстрируют, что оптимиза

Abstract

Large Language Models (LLMs) are highly sensitive to subtle, non-semantic variations in prompt phrasing and formatting. In this work, we present the first systematic evaluation of 5 methods for improving prompt robustness within a unified experimental framework. We benchmark these techniques on 8 models from Llama, Qwen and Gemma families across 52 tasks from Natural Instructions dataset. Our evaluation covers robustness methods from both fine-tuned and in-context learning paradigms, and tests their generalization against multiple types of distribution shifts. Finally, we extend our analysis to GPT-4.1 and DeepSeek V3 to assess frontier models' current robustness to format perturbations. Our findings offer actionable insights into the relative effectiveness of these robustness methods, enabling practitioners to make informed decisions when aiming for stable and reliable LLM performance in real-world applications. Code: https://github.com/AIRI-Institute/when-punctuation-matters.

Ссылки и действия