DetectAnyLLM: Towards Generalizable and Robust Detection of Machine-Generated Text Across Domains and Models
2509.14268v1
cs.CL, cs.AI, cs.CY
2025-09-20
Авторы:
Jiachen Fu, Chun-Le Guo, Chongyi Li
Резюме на русском
--------------------------------------
## Контекст
В последние годы быстро развиваются большие языковые модели (LLMs), которые применяются во многих сферах, от поиска информации до создания текстов. Но при этом возрастает и их потенциальная опасность, так как тексты, создаваемые LLMs, могут использоваться для распространения неточной или вредоносной информации. Это привело к развитию задачи machine-generated text detection (MGTD) — определения того, был ли текст сгенерирован с помощью машины или же написан человеком. Однако существующие подходы сталкиваются с проблемами в реальных условиях. Например, zero-shot детекторы опираются на распределение выходных данных модели, что делает их нестабильными. Тренировочные детекторы, в свою очередь, часто переобучаются к конкретным данным, что ограничивает их общеутверждаемую эффективность. Эти ограничения мотивируют развитие более универсальных и надежных способов обнаружения сгенерированного текста.
--------------------------------------
## Метод
Для решения этих проблем предлагается новая методология под названием Direct Discrepancy Learning (DDL). Это оптимизационный подход, который напрямую учитывает задачу MGTD при обучении модели. В отличии от существующих методов, DDL не ограничивается поиском корреляции с результатами модели-генератора, а учитывает конкретные особенности задачи MGTD. Это означает, что модель не только может быть более точной в работе, но и более устойчива к разным типам текстов и стилям генерации. Для реализации DDL была разработана дополнительная архитектура, интегрированная в общую модель DetectAnyLLM. Эта архитектура включает в себя многоуровневые слои, которые работают совместно для оптимизации результатов MGTD.
--------------------------------------
## Результаты
Проведенные эксперименты охватили большой набор данных, включающий тексты сгенерированные 17 LLMs, а также тексты, написанные человеком. Тестирование проводилось на нескольких тестовых наборах данных, чтобы оценить общую подвижность модели и ее устойчивость к разным типам текста. Результаты показали, что DetectAnyLLM показывает значительное улучшение по сравнению с другими моделями MGTD, особенно в ситуациях, где данные относительно нестандартны или неожиданны. Например, модель DetectAnyLLM демонстрировала более 70% улучшения в производительности по сравнению с базовой моделью, несмотря на то, что оба использовали одинаковые данные для обучения. Эти результаты подтверждают эффективность DDL и его влияние на улучшение общей обнаружительной способности.
--------------------------------------
## Значимость
Модель DetectAnyLLM открывает новые возможности для обнаружения текстов, сгенерированных LLMs, в различных сферах, включая модерацию контента, защиту от ботов и обеспечение честности в цифровой сфере. Особую значим
Abstract
The rapid advancement of large language models (LLMs) has drawn urgent
attention to the task of machine-generated text detection (MGTD). However,
existing approaches struggle in complex real-world scenarios: zero-shot
detectors rely heavily on scoring model's output distribution while
training-based detectors are often constrained by overfitting to the training
data, limiting generalization. We found that the performance bottleneck of
training-based detectors stems from the misalignment between training objective
and task needs. To address this, we propose Direct Discrepancy Learning (DDL),
a novel optimization strategy that directly optimizes the detector with
task-oriented knowledge. DDL enables the detector to better capture the core
semantics of the detection task, thereby enhancing both robustness and
generalization. Built upon this, we introduce DetectAnyLLM, a unified detection
framework that achieves state-of-the-art MGTD performance across diverse LLMs.
To ensure a reliable evaluation, we construct MIRAGE, the most diverse
multi-task MGTD benchmark. MIRAGE samples human-written texts from 10 corpora
across 5 text-domains, which are then re-generated or revised using 17
cutting-edge LLMs, covering a wide spectrum of proprietary models and textual
styles. Extensive experiments on MIRAGE reveal the limitations of existing
methods in complex environment. In contrast, DetectAnyLLM consistently
outperforms them, achieving over a 70% performance improvement under the same
training data and base scoring model, underscoring the effectiveness of our
DDL. Project page: {https://fjc2005.github.io/detectanyllm}.
Ссылки и действия
Дополнительные ресурсы: