Diversity Boosts AI-Generated Text Detection
2509.18880v1
cs.CL, cs.AI, cs.LG
2025-09-25
Авторы:
Advik Raj Basani, Pin-Yu Chen
Резюме на русском
#### Контекст
Детектирование текстов, сгенерированных с помощью глубоких нейросетевых моделей (LLM — Large Language Models), становится ключевым для борьбы с их недобросовестным использованием в образовательных учреждениях, бизнесе, новостной сфере и социальных сетях. Хотя существующие методы определения таких текстов часто опираются на токен-уровневые оценки вероятности или закрытые беспрозрачные классификаторы, эти подходы далеко не всегда эффективны, особенно при работе с высококачественными генерациями. Их другая проблема заключается в отсутствии интерпретируемости результатов. Многие детекторы не могут объяснить причины определения текста как сгенерированного. Это ограничивает их применение, особенно при работе с текстами, требующими доказательства использования недобросовестных методов. В данном исследовании предлагается новый подход, который адресует эти проблемы.
#### Метод
Метод, предложенный в работе, называется DivEye. Он основывается на анализе непредсказуемости текста на различных уровнях (слов, фраз, структурных элементов). Отмечается, что тексты, написанные людьми, обладают более широкой непредсказуемостью в сравнении с текстами, сгенерированными глубокими моделями. DivEye использует статистические признаки, определяемые частотой непредсказуемости на разных уровнях текста. Эти признаки акцентируют внимание на ритмической непредсказуемости, которая является признаком людского авторства. Детектор представляет собой нейронную сеть, которая обучается на этих признаках и позволяет определить границы текста, где непредсказуемость текста выходит за пределы нормы. Таким образом, DivEye обеспечивает интерпретируемую и точную оценку текста.
#### Результаты
Наборы данных, использованные в исследовании, включали тексты, сгенерированные разными моделями LLMs (включая GPT-2, GPT-3, BERT), а также тексты, написанные людьми. Эксперименты показали, что DivEye превосходит существующие методы на 33.2% в нулевом значении обучения (zero-shot detection) и демонстрирует конкурентную производительность с лучшими базисными моделями. Была проверена закономерность работы детектора в различных сферах применения, включая образовательные тексты, новости и социальные сети. Также удалось продемонстрировать, что DivEye выдерживает атаки, связанные с парафразированием и адверсарскими текстами. Кроме того, он повышает эффективность других детекторов, присоединяясь к ним в качестве вспомогательного сигнала на 18.7%.
#### Значимость
Предлагаемый подход имеет широкие перспективы применения в сферах, где важно определить границы ч
Abstract
Detecting AI-generated text is an increasing necessity to combat misuse of
LLMs in education, business compliance, journalism, and social media, where
synthetic fluency can mask misinformation or deception. While prior detectors
often rely on token-level likelihoods or opaque black-box classifiers, these
approaches struggle against high-quality generations and offer little
interpretability. In this work, we propose DivEye, a novel detection framework
that captures how unpredictability fluctuates across a text using
surprisal-based features. Motivated by the observation that human-authored text
exhibits richer variability in lexical and structural unpredictability than LLM
outputs, DivEye captures this signal through a set of interpretable statistical
features. Our method outperforms existing zero-shot detectors by up to 33.2%
and achieves competitive performance with fine-tuned baselines across multiple
benchmarks. DivEye is robust to paraphrasing and adversarial attacks,
generalizes well across domains and models, and improves the performance of
existing detectors by up to 18.7% when used as an auxiliary signal. Beyond
detection, DivEye provides interpretable insights into why a text is flagged,
pointing to rhythmic unpredictability as a powerful and underexplored signal
for LLM detection.
Ссылки и действия
Дополнительные ресурсы: