Self-Disguise Attack: Induce the LLM to disguise itself for AIGT detection evasion
2508.15848v1
cs.CR, cs.CL
2025-08-25
Авторы:
Yinghan Zhou, Juan Wen, Wanli Peng, Zhengxian Wu, Ziwei Zhang, Yiming Xue
Резюме на русском
#### Контекст
AI-generated text (AIGT) становится все более популярным в приложениях, от создания контента до поддержки решающих процессов. Однако, это приводит к повышению риска мошенничества и абьюза, что делает необходимым развитие эффективных систем по его детекции. Несмотря на прогресс в области AIGT-детекторов, эти системы часто сталкиваются с проблемами, такими как высокая стоимость вычислений, ухудшение качества текста и жесткий контроль за этим текстом в реальном времени. Еще одной проблемой является отсутствие разнообразия в текстах, порожденных детекторами, что ухудшает их точность и надежность в практических задачах. Мотивирует это оптимизация существующих техник, улучшение их устойчивости, минимизация издержек, а также повышение качества текста, который они генерируют.
#### Метод
Для решения этих проблем мы предлагаем **Self-Disguise Attack (SDA)** — новую методику для уменьшения вероятности детекции AIGT. Решение состоит из двух основных компонентов: **adversarial feature extractor** и **retrieval-based context examples optimizer**. **Adversarial feature extractor** позволяет LLMs понять, как генерировать более реалистичный текст, подобный человеческому. Он делает это с помощью обучения на атакуемых примерах и использования функций адверсарного обучения. **Retrieval-based context examples optimizer**, в свою очередь, извлекает самые подходящие примеры из внешней базы знаний, которые далее используются в качестве in-context examples для дальнейшего создания текста. Это позволяет LLM глубже погрузиться в контекст и делать текст более скрытным, а также уменьшает потери в его разнообразии. Наконец, SDA использует простые промышленные предложения и внешние примеры в качестве входных данных для LLM, чтобы уменьшить ресурсоемкость процесса.
#### Результаты
Мы провели эксперименты с тремя разными LLMs и различными AIGT-детекторами. Наши результаты показывают, что SDA эффективно уменьшает среднюю точность детекторов AIGT, делая процесс даже более устойчивым к системам, которые используют мощные модели глубокого обучения. Точность детекции снизилась на значительные проценты, при этом качество текста, генерируемого LLM, осталось высоким. Это указывает на успех SDA в сочетании уменьшения вероятности детекции с сохранением качества текста, что делает его привлекательным для практического применения.
#### Значимость
SDA может быть применено в различных областях, таких как мониторинг социальных сетей, распознавание поддельных отзывов, а также для оценки качества детекторов AIGT. Он делает эти системы более надежными, уменьшая риск мошенничества и повышая уровень доверия к текстам, генерируемым AI. Это также открывает новые возможности для бо
Abstract
AI-generated text (AIGT) detection evasion aims to reduce the detection
probability of AIGT, helping to identify weaknesses in detectors and enhance
their effectiveness and reliability in practical applications. Although
existing evasion methods perform well, they suffer from high computational
costs and text quality degradation. To address these challenges, we propose
Self-Disguise Attack (SDA), a novel approach that enables Large Language Models
(LLM) to actively disguise its output, reducing the likelihood of detection by
classifiers. The SDA comprises two main components: the adversarial feature
extractor and the retrieval-based context examples optimizer. The former
generates disguise features that enable LLMs to understand how to produce more
human-like text. The latter retrieves the most relevant examples from an
external knowledge base as in-context examples, further enhancing the
self-disguise ability of LLMs and mitigating the impact of the disguise process
on the diversity of the generated text. The SDA directly employs prompts
containing disguise features and optimized context examples to guide the LLM in
generating detection-resistant text, thereby reducing resource consumption.
Experimental results demonstrate that the SDA effectively reduces the average
detection accuracy of various AIGT detectors across texts generated by three
different LLMs, while maintaining the quality of AIGT.
Ссылки и действия
Дополнительные ресурсы: