Two Birds with One Stone: Multi-Task Detection and Attribution of LLM-Generated Text

2508.14190v1 cs.CR, cs.CL, cs.LG 2025-08-22

Авторы:

Zixin Rao, Youssef Mohamed, Shang Liu, Zeyan Liu

Резюме на русском

## Контекст Современные Large Language Models (LLMs), такие как GPT-4 и Llama, достигли впечатляющего уровня в создании натурального текста, однако приносят с собой задачи связанные с безопасностью и аутентичностью содержимого. Недостаток решений для распознавания LLM-генерируемого текста и авторства генерируемых текстов, особенно за пределами английского языка, становится все более заметным. В то же время, авторство генерируемых текстов является ключевым вопросом в форензическом анализе. Данное исследование выделяет необходимость в решении обоих этих проблем одновременно, чтобы улучшить понимание характера действий LLMs. ## Метод Предлагаемый подход, DA-MTL (Detection and Attribution via Multi-Task Learning), представляет собой модель multi-task learning, которая адресована задачей распознавания LLM-генерируемого текста и его авторства. Модель объединяет обучение на разных данных для каждой задачи, меняясь друг с другом, чтобы получать преимущества и делиться сведениями. Эта архитектура использует бэкбоны из нескольких моделей (например, RoBERTa, Llama, GPT-4) и применяет уникальные методы для каждого языка и генерирующей модели. Методология также включает анализ перекрестных модальностей и языков, чтобы стать более зернистой и устойчивой к атакам. ## Результаты Работа оценивалась на девяти датасетах и четырьмя моделях, включая GPT-4, Llama, RoBERTa и XLM-RoBERTa, покрывая русский, английский, французский и немецкий языки. Модель показала высокую точность в определении текста, генерируемого LLM, и в определении конкретной модели-автора. Особо подчеркивается эффективность DA-MTL при работе с множеством языков и моделей. Также проведен анализ противодействия атакам, которые пытаются подделать авторство. ## Значимость DA-MTL может использоваться в области безопасности, форензики и мониторинга авторства текстов. Он позволяет установить границы между генерируемым и ручным текстом, а также определять, какая модель сгенерировала текст. Это делает его применимым в анти-спам-системах, фальсификации-защите, а также в анализе отчетов и социальных тенденций. Улучшение в области авторства генерируемого текста может иметь значительное влияние на проверку источников информации. ## Выводы Данная работа устанавливает новый подход к обеим задачам распознавания LLM-текста и определения авторства. Она показывает, что объединение многозадачного обучения может улучшить результаты как в распознавании, так и в авторстве. Будущие исследования будут направлены на расширение поддерживаемых языков, улучшение методов противодействия атакам

Abstract

Large Language Models (LLMs), such as GPT-4 and Llama, have demonstrated remarkable abilities in generating natural language. However, they also pose security and integrity challenges. Existing countermeasures primarily focus on distinguishing AI-generated content from human-written text, with most solutions tailored for English. Meanwhile, authorship attribution--determining which specific LLM produced a given text--has received comparatively little attention despite its importance in forensic analysis. In this paper, we present DA-MTL, a multi-task learning framework that simultaneously addresses both text detection and authorship attribution. We evaluate DA-MTL on nine datasets and four backbone models, demonstrating its strong performance across multiple languages and LLM sources. Our framework captures each task's unique characteristics and shares insights between them, which boosts performance in both tasks. Additionally, we conduct a thorough analysis of cross-modal and cross-lingual patterns and assess the framework's robustness against adversarial obfuscation techniques. Our findings offer valuable insights into LLM behavior and the generalization of both detection and authorship attribution.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Two Birds with One Stone: Multi-Task Detection and Attribution of LLM-Generated Text

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Securing Large Language Models (LLMs) from Prompt Injection Attacks

Steganographic Backdoor Attacks in NLP: Ultra-Low Poisoning and Defense Evasion

PVMark: Enabling Public Verifiability for LLM Watermarking Schemes

Bits Leaked per Query: Information-Theoretic Bounds on Adversarial Attacks again...

Differentially Private Synthetic Text Generation for Retrieval-Augmented Generat...

Навигация