An Investigation on Group Query Hallucination Attacks
2508.19321v1
cs.CR, cs.AI, cs.CL
2025-08-29
Авторы:
Kehao Miao, Xiaolong Jin
Резюме на русском
## Контекст
С появлением крупных языковых моделей (LLMs), понимание их потенциальных сбоев при взаимодействии с пользователями стало ключевым вопросом. Особенно интересно, как LLMs обрабатывают множество вопросов в рамках одной беседы. Это может привести к сбоям в выводах из-за нежелательных влияний между соседними запросами. Данное исследование фокусируется на рассмотрении **Group Query Attack (GQA)** — нового метода, симулирующего такие сценарии. Он позволяет изучить, как последовательность запросов влияет на выводы языковых моделей, а также на способность моделей выполнять прикладные задачи.
## Метод
**Group Query Attack** представляет собой метод, в котором группа запросов представляется языковой модели одновременно. В рамках данного исследования, авторы применяют GQA к моделям с разным функционалом, включая задачи моделирования, рассуждения и кодогенерации. Особое внимание уделено изучению зависимости результатов от влияния смежных запросов, а также изучению возможности инициировать backdoor-атаки через GQA. Эксперименты проводятся с использованием предобученных моделей и их адаптаций под конкретные задачи.
## Результаты
Исследование показало, что **Group Query Attack** существенно ухудшает производительность моделей, особенно тех, которые были приучены к конкретным задачам. Это происходит из-за того, что соседние запросы влияют на контекст вывода модели, что приводит к ошибкам в выводах. Также, GQA демонстрирует риск инициировать backdoor-атаки, когда модель вместо предсказания на основе входных данных склоняется к ответу, который связан с заранее загруженным в модель backdoor-триггером. Тестирование проводилось на задачах реального применения, включая логическое и математическое рассуждение, а также на создании кода.
## Значимость
**Group Query Attack** может использоваться в разных областях, включая защиту от вредоносных атак на языковые модели, анализ их уязвимостей и оценку качества взаимодействия с пользователем. Этот метод имеет потенциал для улучшения обучения моделей, чтобы сделать их более устойчивыми к внешним влияниям. Это может положительно сказаться на безопасности и эффективности использования языковых моделей в реальных приложениях.
## Выводы
**Group Query Attack** является эффективным методом для исследования потенциальных сбоев в языковых моделях при их взаимодействии с пользователями. Результаты жизнеспособны для дальнейшего исследования в области улучшения устойчивости моделей к таким атакам. Будущие исследования будут фокусироваться на развитии методов, позволяющих обнаруживать и предотвращать подобные сбои в моделях, а также на исследовании их последствий для различных прикладных задач.
Abstract
With the widespread use of large language models (LLMs), understanding their
potential failure modes during user interactions is essential. In practice,
users often pose multiple questions in a single conversation with LLMs.
Therefore, in this study, we propose Group Query Attack, a technique that
simulates this scenario by presenting groups of queries to LLMs simultaneously.
We investigate how the accumulated context from consecutive prompts influences
the outputs of LLMs. Specifically, we observe that Group Query Attack
significantly degrades the performance of models fine-tuned on specific tasks.
Moreover, we demonstrate that Group Query Attack induces a risk of triggering
potential backdoors of LLMs. Besides, Group Query Attack is also effective in
tasks involving reasoning, such as mathematical reasoning and code generation
for pre-trained and aligned models.
Ссылки и действия
Дополнительные ресурсы: