Self-Disguise Attack: Induce the LLM to disguise itself for AIGT detection evasion

2508.15848v1 cs.CR, cs.CL 2025-08-25
Авторы:

Yinghan Zhou, Juan Wen, Wanli Peng, Zhengxian Wu, Ziwei Zhang, Yiming Xue

Резюме на русском

#### Контекст AI-generated text (AIGT) становится все более популярным в приложениях, от создания контента до поддержки решающих процессов. Однако, это приводит к повышению риска мошенничества и абьюза, что делает необходимым развитие эффективных систем по его детекции. Несмотря на прогресс в области AIGT-детекторов, эти системы часто сталкиваются с проблемами, такими как высокая стоимость вычислений, ухудшение качества текста и жесткий контроль за этим текстом в реальном времени. Еще одной проблемой является отсутствие разнообразия в текстах, порожденных детекторами, что ухудшает их точность и надежность в практических задачах. Мотивирует это оптимизация существующих техник, улучшение их устойчивости, минимизация издержек, а также повышение качества текста, который они генерируют. #### Метод Для решения этих проблем мы предлагаем **Self-Disguise Attack (SDA)** — новую методику для уменьшения вероятности детекции AIGT. Решение состоит из двух основных компонентов: **adversarial feature extractor** и **retrieval-based context examples optimizer**. **Adversarial feature extractor** позволяет LLMs понять, как генерировать более реалистичный текст, подобный человеческому. Он делает это с помощью обучения на атакуемых примерах и использования функций адверсарного обучения. **Retrieval-based context examples optimizer**, в свою очередь, извлекает самые подходящие примеры из внешней базы знаний, которые далее используются в качестве in-context examples для дальнейшего создания текста. Это позволяет LLM глубже погрузиться в контекст и делать текст более скрытным, а также уменьшает потери в его разнообразии. Наконец, SDA использует простые промышленные предложения и внешние примеры в качестве входных данных для LLM, чтобы уменьшить ресурсоемкость процесса. #### Результаты Мы провели эксперименты с тремя разными LLMs и различными AIGT-детекторами. Наши результаты показывают, что SDA эффективно уменьшает среднюю точность детекторов AIGT, делая процесс даже более устойчивым к системам, которые используют мощные модели глубокого обучения. Точность детекции снизилась на значительные проценты, при этом качество текста, генерируемого LLM, осталось высоким. Это указывает на успех SDA в сочетании уменьшения вероятности детекции с сохранением качества текста, что делает его привлекательным для практического применения. #### Значимость SDA может быть применено в различных областях, таких как мониторинг социальных сетей, распознавание поддельных отзывов, а также для оценки качества детекторов AIGT. Он делает эти системы более надежными, уменьшая риск мошенничества и повышая уровень доверия к текстам, генерируемым AI. Это также открывает новые возможности для бо

Abstract

AI-generated text (AIGT) detection evasion aims to reduce the detection probability of AIGT, helping to identify weaknesses in detectors and enhance their effectiveness and reliability in practical applications. Although existing evasion methods perform well, they suffer from high computational costs and text quality degradation. To address these challenges, we propose Self-Disguise Attack (SDA), a novel approach that enables Large Language Models (LLM) to actively disguise its output, reducing the likelihood of detection by classifiers. The SDA comprises two main components: the adversarial feature extractor and the retrieval-based context examples optimizer. The former generates disguise features that enable LLMs to understand how to produce more human-like text. The latter retrieves the most relevant examples from an external knowledge base as in-context examples, further enhancing the self-disguise ability of LLMs and mitigating the impact of the disguise process on the diversity of the generated text. The SDA directly employs prompts containing disguise features and optimized context examples to guide the LLM in generating detection-resistant text, thereby reducing resource consumption. Experimental results demonstrate that the SDA effectively reduces the average detection accuracy of various AIGT detectors across texts generated by three different LLMs, while maintaining the quality of AIGT.

Ссылки и действия