Too Easily Fooled? Prompt Injection Breaks LLMs on Frustratingly Simple Multiple-Choice Questions
2508.13214v1
cs.CR, cs.AI
2025-08-21
Авторы:
Xuyang Guo, Zekai Huang, Zhao Song, Jiahao Zhang
Резюме на русском
## Контекст
Large Language Models (LLMs) пользуются популярностью благодаря их способности выполнять сложные задачи, включая логическое рассуждение, перевод и синтез текста. Однако возникают вопросы о их уязвимости к нежелательным воздействиям, особенно в ситуациях, когда они используются в качестве судьи для принятия решений, например в образовании, рецензировании или оценке данных. В данном исследовании мы сфокусировались на проблеме **prompt injection attacks**, где злоумышленник внедряет скрытые команды в текст, которые меняют результат вывода модели. Мы исследуем этот вопрос на простых множественными-выбором или выборочных тестах, упакованных в PDF-файлы, чтобы проверить устойчивость LLMs к таким нападениям.
## Метод
Мы использовали три модели LLM с разными размерами (7B, 13B, 33B параметров) для экспериментов. Данные были представлены в виде PDF-файлов, в которых были внедрены скрытые указания (hidden prompts) для модели. Например, вопрос "What is 3 + 2?" был заключён в указание, чтобы модель ответила неверно. Мы экспериментировали с различными типами внедрённых команд и измеряли точность ответов моделей. Эта методика позволила изучить уязвимость моделей к внедрённым командам в разных условиях.
## Результаты
Наши эксперименты показали, что все три модели LLM были легко обмануты в условиях внедрённых команд. Даже на простых множественных выборах, где ответ должен был быть ясен (например, ответ на вопрос "What is 3 + 2?" должен был быть "5"), модели давали неверный ответ в результате внедрённых команд. Мы также отметили, что чем больше размер модели, тем выше её вероятность поддаться такому родам атакам. Это указывает на то, что увеличение мощности модели не обязательно приводит к повышению её устойчивости к таким угрозам.
## Значимость
Наше исследование выделяет серьёзные риски для приложений, использующих LLMs в качестве судебных органов. Любые негативные последствия внедрённых команд могут привести к несоответствию ожиданий и вредным решениям в областях, таких как оценка качества данных или рецензирование. Мы также отметили, что наш подход может быть применён для тестирования устойчивости других моделей и систем, чтобы улучшить их защиту от этих атак. Это может способствовать развитию более надежных и безопасных моделей LLM.
## Выводы
Мы установили, что LLMs остаются уязвимыми для простых, но эффективных, внедрённых команд в PDF-файлах, даже на простых вопросах. Это подтверждает необходимость в развитии новых методов защиты моделей от таких угроз. Будущие исследования будут направлены на изучение более гибких и устойчивых методо
Abstract
Large Language Models (LLMs) have recently demonstrated strong emergent
abilities in complex reasoning and zero-shot generalization, showing
unprecedented potential for LLM-as-a-judge applications in education, peer
review, and data quality evaluation. However, their robustness under prompt
injection attacks, where malicious instructions are embedded into the content
to manipulate outputs, remains a significant concern. In this work, we explore
a frustratingly simple yet effective attack setting to test whether LLMs can be
easily misled. Specifically, we evaluate LLMs on basic arithmetic questions
(e.g., "What is 3 + 2?") presented as either multiple-choice or true-false
judgment problems within PDF files, where hidden prompts are injected into the
file. Our results reveal that LLMs are indeed vulnerable to such hidden prompt
injection attacks, even in these trivial scenarios, highlighting serious
robustness risks for LLM-as-a-judge applications.
Ссылки и действия
Дополнительные ресурсы: