RedHerring Attack: Testing the Reliability of Attack Detection

2509.20691v1 cs.CL, I.2.7 2025-09-27
Авторы:

Jonathan Rusert

Резюме на русском

## Контекст В последние годы атаки на тексты, основанные на адверсарских методах, стали возникать все чаще в области естественного языкового процессинга (NLP). Эти атаки нацелены на то, чтобы подделать или манипулировать результатами текстовых классификаторов. Чтобы противостоять этим угрозам, были разработаны модели, определяющие такие атаки. Эти модели не только помогают обнаружить недостоверные данные, но и могут использоваться в качестве дополнительного этапа проверки для NLP-систем. Однако пока что недостаточно изучено вопрос об эффективности и надежности таких моделей анализа атак. Это подрывает их доверие как в академической области, так и в промышленности. Мы предлагаем новую угрозу, RedHerring, которая направлена на снижение надежности моделей атак, при этом не затрагивая надежность классификатора. ## Метод RedHerring — это новый тип атаки, предназначенный для сдерживания моделей атак. Он состоит в том, чтобы внести изменения в текст, чтобы модель атак ошиблась в определении, при этом сохранив правильный вывод классификатора. Метод RedHerring использует специальные стратегии для добавления изменений, которые не отражаются на конечном результате, но приводят к неверному определению моделью атак. Мы проводили эксперименты на 4 различных датасетах, применяя 3 модели атак и 4 классификаторов. Наши тесты показали, что RedHerring может снизить точность модели атак до 71%, при этом не влияя на точность классификатора или даже улучшая её. ## Результаты Мы проверили нашу модель на нескольких датасетах, включая IMDB, SST-2, AG News и Yelp. Мы модифицировали тексты для запутывания модели атака, при этом сохраняя верность классификатора. Наши результаты показали, что RedHerring может снизить доверие к модели атака до 71%, при этом не затрагивая или даже улучшая точность классификатора. Эти результаты показали, что RedHerring может стать серьезной угрозой для текущих моделей атак и показали необходимость разработки новых методов защиты. ## Значимость RedHerring может иметь значительное влияние на различные области, такие как безопасность текстовых моделей, моделирование предметных областей и проверка подлинности текста. Она показывает, что модели атак могут быть использованы не только для того, чтобы определить недостоверные данные, но и для того, чтобы опутать их. Этот подход может быть использован для раскрытия недостатков в текущих моделях атаки и для повышения их надежности. Мы также предлагаем простую внедряемую защиту, которая может увеличить доверие к моделям до 20-30%, не требуя изменений в реализации классификатора или модели атаки. ## Выводы Наши исследования показали, что RedHerring может быть эффективно использована для сни

Abstract

In response to adversarial text attacks, attack detection models have been proposed and shown to successfully identify text modified by adversaries. Attack detection models can be leveraged to provide an additional check for NLP models and give signals for human input. However, the reliability of these models has not yet been thoroughly explored. Thus, we propose and test a novel attack setting and attack, RedHerring. RedHerring aims to make attack detection models unreliable by modifying a text to cause the detection model to predict an attack, while keeping the classifier correct. This creates a tension between the classifier and detector. If a human sees that the detector is giving an ``incorrect'' prediction, but the classifier a correct one, then the human will see the detector as unreliable. We test this novel threat model on 4 datasets against 3 detectors defending 4 classifiers. We find that RedHerring is able to drop detection accuracy between 20 - 71 points, while maintaining (or improving) classifier accuracy. As an initial defense, we propose a simple confidence check which requires no retraining of the classifier or detector and increases detection accuracy greatly. This novel threat model offers new insights into how adversaries may target detection models.

Ссылки и действия