When Punctuation Matters: A Large-Scale Comparison of Prompt Robustness Methods for LLMs
2508.11383v1
cs.CL, cs.AI
2025-08-19
Авторы:
Mikhail Seleznyov, Mikhail Chaichuk, Gleb Ershov, Alexander Panchenko, Elena Tutubalina, Oleg Somov
Резюме на русском
#### Контекст
Large Language Models (LLMs) являются высокоточными инструментами с практическими применениями во многих областях, но остаются чувствительными к незначительным несемантическим изменениям в формате и фразировании запросов. Эти нюансы могут привести к непоследовательным результатам. Улучшение прочности запросов к LLMs является ключевым заданием для обеспечения надежности и последовательности их ответов в реальных сценариях применения. Несмотря на существование нескольких подходов к повышению прочности запросов, существует недостаток в систематических исследованиях, сравнивающих эти методы в одной экспериментальной модели. Этот отсутствующий аспект стало мотивацией для настоящего исследования.
#### Метод
Мы осуществили подробную оценку пяти методов улучшения прочности запросов к LLMs:
1. **Позиционирование запросов (Prompt Positioning)** — изменение порядка слов в запросе.
2. **Обратный фрагмент (Reverse Fragment)** — добавление обратных версий фрагментов запроса.
3. **Перефразирование (Rewording)** — изменение формулировки запроса, оставив смысл нетронутым.
4. **Удаление знаков препинания (Punctuation Removal)** — удаление всех знаков препинания.
5. **Добавление случайных слов (Random Words Addition)** — добавление случайных слов в запрос.
Тестирование проводилось на 8 моделях LLM, включая Llama, Qwen и Gemma, на 52 задачах из Natural Instructions dataset. Мы использовали подходы из области как традиционных методов (fine-tuning), так и бейджинговых (in-context learning), чтобы получить сложившуюся экспериментальную модель.
#### Результаты
Мы выполнили ряд экспериментов, которые позволили сравнить эффективность различных методов улучшения прочности запросов. Для этого мы использовали различные типы распределенных сдвигов данных, чтобы оценить общую гибкость и стабильность. Наши результаты показали, что **Позиционирование запросов** и **Перефразирование** показали самые высокие показатели прочности, особенно в случае распределенных сдвигов. Метод **Удаления знаков препинания**, несмотря на простоту, также продемонстрировал значительные улучшения в некоторых случаях.
#### Значимость
Наши результаты имеют широкое применение в различных сферах, включая обработку естественного языка, системы рекомендаций и диалоговые системы. Методы, которые мы описали, могут помочь улучшить надежность и производительность LLMs в реальных условиях. Это также может способствовать развитию новых методов для повышения прочности и стабильности LLMs в области обработки естественного языка.
#### Выводы
Мы представили первый систематический эксперимент, сравнивающий методы улучшения прочности запросов к LLMs в рамках единой модели. Наши находки демонстрируют, что оптимиза
Abstract
Large Language Models (LLMs) are highly sensitive to subtle, non-semantic
variations in prompt phrasing and formatting. In this work, we present the
first systematic evaluation of 5 methods for improving prompt robustness within
a unified experimental framework. We benchmark these techniques on 8 models
from Llama, Qwen and Gemma families across 52 tasks from Natural Instructions
dataset. Our evaluation covers robustness methods from both fine-tuned and
in-context learning paradigms, and tests their generalization against multiple
types of distribution shifts. Finally, we extend our analysis to GPT-4.1 and
DeepSeek V3 to assess frontier models' current robustness to format
perturbations. Our findings offer actionable insights into the relative
effectiveness of these robustness methods, enabling practitioners to make
informed decisions when aiming for stable and reliable LLM performance in
real-world applications. Code:
https://github.com/AIRI-Institute/when-punctuation-matters.
Ссылки и действия
Дополнительные ресурсы: