Two Birds with One Stone: Multi-Task Detection and Attribution of LLM-Generated Text
2508.14190v1
cs.CR, cs.CL, cs.LG
2025-08-22
Авторы:
Zixin Rao, Youssef Mohamed, Shang Liu, Zeyan Liu
Резюме на русском
## Контекст
Современные Large Language Models (LLMs), такие как GPT-4 и Llama, достигли впечатляющего уровня в создании натурального текста, однако приносят с собой задачи связанные с безопасностью и аутентичностью содержимого. Недостаток решений для распознавания LLM-генерируемого текста и авторства генерируемых текстов, особенно за пределами английского языка, становится все более заметным. В то же время, авторство генерируемых текстов является ключевым вопросом в форензическом анализе. Данное исследование выделяет необходимость в решении обоих этих проблем одновременно, чтобы улучшить понимание характера действий LLMs.
## Метод
Предлагаемый подход, DA-MTL (Detection and Attribution via Multi-Task Learning), представляет собой модель multi-task learning, которая адресована задачей распознавания LLM-генерируемого текста и его авторства. Модель объединяет обучение на разных данных для каждой задачи, меняясь друг с другом, чтобы получать преимущества и делиться сведениями. Эта архитектура использует бэкбоны из нескольких моделей (например, RoBERTa, Llama, GPT-4) и применяет уникальные методы для каждого языка и генерирующей модели. Методология также включает анализ перекрестных модальностей и языков, чтобы стать более зернистой и устойчивой к атакам.
## Результаты
Работа оценивалась на девяти датасетах и четырьмя моделях, включая GPT-4, Llama, RoBERTa и XLM-RoBERTa, покрывая русский, английский, французский и немецкий языки. Модель показала высокую точность в определении текста, генерируемого LLM, и в определении конкретной модели-автора. Особо подчеркивается эффективность DA-MTL при работе с множеством языков и моделей. Также проведен анализ противодействия атакам, которые пытаются подделать авторство.
## Значимость
DA-MTL может использоваться в области безопасности, форензики и мониторинга авторства текстов. Он позволяет установить границы между генерируемым и ручным текстом, а также определять, какая модель сгенерировала текст. Это делает его применимым в анти-спам-системах, фальсификации-защите, а также в анализе отчетов и социальных тенденций. Улучшение в области авторства генерируемого текста может иметь значительное влияние на проверку источников информации.
## Выводы
Данная работа устанавливает новый подход к обеим задачам распознавания LLM-текста и определения авторства. Она показывает, что объединение многозадачного обучения может улучшить результаты как в распознавании, так и в авторстве. Будущие исследования будут направлены на расширение поддерживаемых языков, улучшение методов противодействия атакам
Abstract
Large Language Models (LLMs), such as GPT-4 and Llama, have demonstrated
remarkable abilities in generating natural language. However, they also pose
security and integrity challenges. Existing countermeasures primarily focus on
distinguishing AI-generated content from human-written text, with most
solutions tailored for English. Meanwhile, authorship attribution--determining
which specific LLM produced a given text--has received comparatively little
attention despite its importance in forensic analysis. In this paper, we
present DA-MTL, a multi-task learning framework that simultaneously addresses
both text detection and authorship attribution. We evaluate DA-MTL on nine
datasets and four backbone models, demonstrating its strong performance across
multiple languages and LLM sources. Our framework captures each task's unique
characteristics and shares insights between them, which boosts performance in
both tasks. Additionally, we conduct a thorough analysis of cross-modal and
cross-lingual patterns and assess the framework's robustness against
adversarial obfuscation techniques. Our findings offer valuable insights into
LLM behavior and the generalization of both detection and authorship
attribution.
Ссылки и действия
Дополнительные ресурсы: