Diversity Boosts AI-Generated Text Detection

2509.18880v1 cs.CL, cs.AI, cs.LG 2025-09-25
Авторы:

Advik Raj Basani, Pin-Yu Chen

Резюме на русском

#### Контекст Детектирование текстов, сгенерированных с помощью глубоких нейросетевых моделей (LLM — Large Language Models), становится ключевым для борьбы с их недобросовестным использованием в образовательных учреждениях, бизнесе, новостной сфере и социальных сетях. Хотя существующие методы определения таких текстов часто опираются на токен-уровневые оценки вероятности или закрытые беспрозрачные классификаторы, эти подходы далеко не всегда эффективны, особенно при работе с высококачественными генерациями. Их другая проблема заключается в отсутствии интерпретируемости результатов. Многие детекторы не могут объяснить причины определения текста как сгенерированного. Это ограничивает их применение, особенно при работе с текстами, требующими доказательства использования недобросовестных методов. В данном исследовании предлагается новый подход, который адресует эти проблемы. #### Метод Метод, предложенный в работе, называется DivEye. Он основывается на анализе непредсказуемости текста на различных уровнях (слов, фраз, структурных элементов). Отмечается, что тексты, написанные людьми, обладают более широкой непредсказуемостью в сравнении с текстами, сгенерированными глубокими моделями. DivEye использует статистические признаки, определяемые частотой непредсказуемости на разных уровнях текста. Эти признаки акцентируют внимание на ритмической непредсказуемости, которая является признаком людского авторства. Детектор представляет собой нейронную сеть, которая обучается на этих признаках и позволяет определить границы текста, где непредсказуемость текста выходит за пределы нормы. Таким образом, DivEye обеспечивает интерпретируемую и точную оценку текста. #### Результаты Наборы данных, использованные в исследовании, включали тексты, сгенерированные разными моделями LLMs (включая GPT-2, GPT-3, BERT), а также тексты, написанные людьми. Эксперименты показали, что DivEye превосходит существующие методы на 33.2% в нулевом значении обучения (zero-shot detection) и демонстрирует конкурентную производительность с лучшими базисными моделями. Была проверена закономерность работы детектора в различных сферах применения, включая образовательные тексты, новости и социальные сети. Также удалось продемонстрировать, что DivEye выдерживает атаки, связанные с парафразированием и адверсарскими текстами. Кроме того, он повышает эффективность других детекторов, присоединяясь к ним в качестве вспомогательного сигнала на 18.7%. #### Значимость Предлагаемый подход имеет широкие перспективы применения в сферах, где важно определить границы ч

Abstract

Detecting AI-generated text is an increasing necessity to combat misuse of LLMs in education, business compliance, journalism, and social media, where synthetic fluency can mask misinformation or deception. While prior detectors often rely on token-level likelihoods or opaque black-box classifiers, these approaches struggle against high-quality generations and offer little interpretability. In this work, we propose DivEye, a novel detection framework that captures how unpredictability fluctuates across a text using surprisal-based features. Motivated by the observation that human-authored text exhibits richer variability in lexical and structural unpredictability than LLM outputs, DivEye captures this signal through a set of interpretable statistical features. Our method outperforms existing zero-shot detectors by up to 33.2% and achieves competitive performance with fine-tuned baselines across multiple benchmarks. DivEye is robust to paraphrasing and adversarial attacks, generalizes well across domains and models, and improves the performance of existing detectors by up to 18.7% when used as an auxiliary signal. Beyond detection, DivEye provides interpretable insights into why a text is flagged, pointing to rhythmic unpredictability as a powerful and underexplored signal for LLM detection.

Ссылки и действия