DetectAnyLLM: Towards Generalizable and Robust Detection of Machine-Generated Text Across Domains and Models

2509.14268v1 cs.CL, cs.AI, cs.CY 2025-09-20
Авторы:

Jiachen Fu, Chun-Le Guo, Chongyi Li

Резюме на русском

-------------------------------------- ## Контекст В последние годы быстро развиваются большие языковые модели (LLMs), которые применяются во многих сферах, от поиска информации до создания текстов. Но при этом возрастает и их потенциальная опасность, так как тексты, создаваемые LLMs, могут использоваться для распространения неточной или вредоносной информации. Это привело к развитию задачи machine-generated text detection (MGTD) — определения того, был ли текст сгенерирован с помощью машины или же написан человеком. Однако существующие подходы сталкиваются с проблемами в реальных условиях. Например, zero-shot детекторы опираются на распределение выходных данных модели, что делает их нестабильными. Тренировочные детекторы, в свою очередь, часто переобучаются к конкретным данным, что ограничивает их общеутверждаемую эффективность. Эти ограничения мотивируют развитие более универсальных и надежных способов обнаружения сгенерированного текста. -------------------------------------- ## Метод Для решения этих проблем предлагается новая методология под названием Direct Discrepancy Learning (DDL). Это оптимизационный подход, который напрямую учитывает задачу MGTD при обучении модели. В отличии от существующих методов, DDL не ограничивается поиском корреляции с результатами модели-генератора, а учитывает конкретные особенности задачи MGTD. Это означает, что модель не только может быть более точной в работе, но и более устойчива к разным типам текстов и стилям генерации. Для реализации DDL была разработана дополнительная архитектура, интегрированная в общую модель DetectAnyLLM. Эта архитектура включает в себя многоуровневые слои, которые работают совместно для оптимизации результатов MGTD. -------------------------------------- ## Результаты Проведенные эксперименты охватили большой набор данных, включающий тексты сгенерированные 17 LLMs, а также тексты, написанные человеком. Тестирование проводилось на нескольких тестовых наборах данных, чтобы оценить общую подвижность модели и ее устойчивость к разным типам текста. Результаты показали, что DetectAnyLLM показывает значительное улучшение по сравнению с другими моделями MGTD, особенно в ситуациях, где данные относительно нестандартны или неожиданны. Например, модель DetectAnyLLM демонстрировала более 70% улучшения в производительности по сравнению с базовой моделью, несмотря на то, что оба использовали одинаковые данные для обучения. Эти результаты подтверждают эффективность DDL и его влияние на улучшение общей обнаружительной способности. -------------------------------------- ## Значимость Модель DetectAnyLLM открывает новые возможности для обнаружения текстов, сгенерированных LLMs, в различных сферах, включая модерацию контента, защиту от ботов и обеспечение честности в цифровой сфере. Особую значим

Abstract

The rapid advancement of large language models (LLMs) has drawn urgent attention to the task of machine-generated text detection (MGTD). However, existing approaches struggle in complex real-world scenarios: zero-shot detectors rely heavily on scoring model's output distribution while training-based detectors are often constrained by overfitting to the training data, limiting generalization. We found that the performance bottleneck of training-based detectors stems from the misalignment between training objective and task needs. To address this, we propose Direct Discrepancy Learning (DDL), a novel optimization strategy that directly optimizes the detector with task-oriented knowledge. DDL enables the detector to better capture the core semantics of the detection task, thereby enhancing both robustness and generalization. Built upon this, we introduce DetectAnyLLM, a unified detection framework that achieves state-of-the-art MGTD performance across diverse LLMs. To ensure a reliable evaluation, we construct MIRAGE, the most diverse multi-task MGTD benchmark. MIRAGE samples human-written texts from 10 corpora across 5 text-domains, which are then re-generated or revised using 17 cutting-edge LLMs, covering a wide spectrum of proprietary models and textual styles. Extensive experiments on MIRAGE reveal the limitations of existing methods in complex environment. In contrast, DetectAnyLLM consistently outperforms them, achieving over a 70% performance improvement under the same training data and base scoring model, underscoring the effectiveness of our DDL. Project page: {https://fjc2005.github.io/detectanyllm}.

Ссылки и действия