An Investigation on Group Query Hallucination Attacks

2508.19321v1 cs.CR, cs.AI, cs.CL 2025-08-29
Авторы:

Kehao Miao, Xiaolong Jin

Резюме на русском

## Контекст С появлением крупных языковых моделей (LLMs), понимание их потенциальных сбоев при взаимодействии с пользователями стало ключевым вопросом. Особенно интересно, как LLMs обрабатывают множество вопросов в рамках одной беседы. Это может привести к сбоям в выводах из-за нежелательных влияний между соседними запросами. Данное исследование фокусируется на рассмотрении **Group Query Attack (GQA)** — нового метода, симулирующего такие сценарии. Он позволяет изучить, как последовательность запросов влияет на выводы языковых моделей, а также на способность моделей выполнять прикладные задачи. ## Метод **Group Query Attack** представляет собой метод, в котором группа запросов представляется языковой модели одновременно. В рамках данного исследования, авторы применяют GQA к моделям с разным функционалом, включая задачи моделирования, рассуждения и кодогенерации. Особое внимание уделено изучению зависимости результатов от влияния смежных запросов, а также изучению возможности инициировать backdoor-атаки через GQA. Эксперименты проводятся с использованием предобученных моделей и их адаптаций под конкретные задачи. ## Результаты Исследование показало, что **Group Query Attack** существенно ухудшает производительность моделей, особенно тех, которые были приучены к конкретным задачам. Это происходит из-за того, что соседние запросы влияют на контекст вывода модели, что приводит к ошибкам в выводах. Также, GQA демонстрирует риск инициировать backdoor-атаки, когда модель вместо предсказания на основе входных данных склоняется к ответу, который связан с заранее загруженным в модель backdoor-триггером. Тестирование проводилось на задачах реального применения, включая логическое и математическое рассуждение, а также на создании кода. ## Значимость **Group Query Attack** может использоваться в разных областях, включая защиту от вредоносных атак на языковые модели, анализ их уязвимостей и оценку качества взаимодействия с пользователем. Этот метод имеет потенциал для улучшения обучения моделей, чтобы сделать их более устойчивыми к внешним влияниям. Это может положительно сказаться на безопасности и эффективности использования языковых моделей в реальных приложениях. ## Выводы **Group Query Attack** является эффективным методом для исследования потенциальных сбоев в языковых моделях при их взаимодействии с пользователями. Результаты жизнеспособны для дальнейшего исследования в области улучшения устойчивости моделей к таким атакам. Будущие исследования будут фокусироваться на развитии методов, позволяющих обнаруживать и предотвращать подобные сбои в моделях, а также на исследовании их последствий для различных прикладных задач.

Abstract

With the widespread use of large language models (LLMs), understanding their potential failure modes during user interactions is essential. In practice, users often pose multiple questions in a single conversation with LLMs. Therefore, in this study, we propose Group Query Attack, a technique that simulates this scenario by presenting groups of queries to LLMs simultaneously. We investigate how the accumulated context from consecutive prompts influences the outputs of LLMs. Specifically, we observe that Group Query Attack significantly degrades the performance of models fine-tuned on specific tasks. Moreover, we demonstrate that Group Query Attack induces a risk of triggering potential backdoors of LLMs. Besides, Group Query Attack is also effective in tasks involving reasoning, such as mathematical reasoning and code generation for pre-trained and aligned models.

Ссылки и действия