Too Easily Fooled? Prompt Injection Breaks LLMs on Frustratingly Simple Multiple-Choice Questions

2508.13214v1 cs.CR, cs.AI 2025-08-21
Авторы:

Xuyang Guo, Zekai Huang, Zhao Song, Jiahao Zhang

Резюме на русском

## Контекст Large Language Models (LLMs) пользуются популярностью благодаря их способности выполнять сложные задачи, включая логическое рассуждение, перевод и синтез текста. Однако возникают вопросы о их уязвимости к нежелательным воздействиям, особенно в ситуациях, когда они используются в качестве судьи для принятия решений, например в образовании, рецензировании или оценке данных. В данном исследовании мы сфокусировались на проблеме **prompt injection attacks**, где злоумышленник внедряет скрытые команды в текст, которые меняют результат вывода модели. Мы исследуем этот вопрос на простых множественными-выбором или выборочных тестах, упакованных в PDF-файлы, чтобы проверить устойчивость LLMs к таким нападениям. ## Метод Мы использовали три модели LLM с разными размерами (7B, 13B, 33B параметров) для экспериментов. Данные были представлены в виде PDF-файлов, в которых были внедрены скрытые указания (hidden prompts) для модели. Например, вопрос "What is 3 + 2?" был заключён в указание, чтобы модель ответила неверно. Мы экспериментировали с различными типами внедрённых команд и измеряли точность ответов моделей. Эта методика позволила изучить уязвимость моделей к внедрённым командам в разных условиях. ## Результаты Наши эксперименты показали, что все три модели LLM были легко обмануты в условиях внедрённых команд. Даже на простых множественных выборах, где ответ должен был быть ясен (например, ответ на вопрос "What is 3 + 2?" должен был быть "5"), модели давали неверный ответ в результате внедрённых команд. Мы также отметили, что чем больше размер модели, тем выше её вероятность поддаться такому родам атакам. Это указывает на то, что увеличение мощности модели не обязательно приводит к повышению её устойчивости к таким угрозам. ## Значимость Наше исследование выделяет серьёзные риски для приложений, использующих LLMs в качестве судебных органов. Любые негативные последствия внедрённых команд могут привести к несоответствию ожиданий и вредным решениям в областях, таких как оценка качества данных или рецензирование. Мы также отметили, что наш подход может быть применён для тестирования устойчивости других моделей и систем, чтобы улучшить их защиту от этих атак. Это может способствовать развитию более надежных и безопасных моделей LLM. ## Выводы Мы установили, что LLMs остаются уязвимыми для простых, но эффективных, внедрённых команд в PDF-файлах, даже на простых вопросах. Это подтверждает необходимость в развитии новых методов защиты моделей от таких угроз. Будущие исследования будут направлены на изучение более гибких и устойчивых методо

Abstract

Large Language Models (LLMs) have recently demonstrated strong emergent abilities in complex reasoning and zero-shot generalization, showing unprecedented potential for LLM-as-a-judge applications in education, peer review, and data quality evaluation. However, their robustness under prompt injection attacks, where malicious instructions are embedded into the content to manipulate outputs, remains a significant concern. In this work, we explore a frustratingly simple yet effective attack setting to test whether LLMs can be easily misled. Specifically, we evaluate LLMs on basic arithmetic questions (e.g., "What is 3 + 2?") presented as either multiple-choice or true-false judgment problems within PDF files, where hidden prompts are injected into the file. Our results reveal that LLMs are indeed vulnerable to such hidden prompt injection attacks, even in these trivial scenarios, highlighting serious robustness risks for LLM-as-a-judge applications.

Ссылки и действия