📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Two Birds with One Stone: Multi-Task Detection and Attribution of LLM-Generated Text

2025-08-22

Авторы:

Zixin Rao, Youssef Mohamed, Shang Liu, Zeyan Liu

## Контекст Современные Large Language Models (LLMs), такие как GPT-4 и Llama, достигли впечатляющего уровня в создании натурального текста, однако приносят с собой задачи связанные с безопасностью и аутентичностью содержимого. Недостаток решений для распознавания LLM-генерируемого текста и авторства генерируемых текстов, особенно за пределами английского языка, становится все более заметным. В то же время, авторство генерируемых текстов является ключевым вопросом в форензическом анализе. Данное исследование выделяет необходимость в решении обоих этих проблем одновременно, чтобы улучшить понимание характера действий LLMs. ## Метод Предлагаемый подход, DA-MTL (Detection and Attribution via Multi-Task Learning), представляет собой модель multi-task learning, которая адресована задачей распознавания LLM-генерируемого текста и его авторства. Модель объединяет обучение на разных данных для каждой задачи, меняясь друг с другом, чтобы получать преимущества и делиться сведениями. Эта архитектура использует бэкбоны из нескольких моделей (например, RoBERTa, Llama, GPT-4) и применяет уникальные методы для каждого языка и генерирующей модели. Методология также включает анализ перекрестных модальностей и языков, чтобы стать более зернистой и устойчивой к атакам. ## Результаты Работа оценивалась на девяти датасетах и четырьмя моделях, включая GPT-4, Llama, RoBERTa и XLM-RoBERTa, покрывая русский, английский, французский и немецкий языки. Модель показала высокую точность в определении текста, генерируемого LLM, и в определении конкретной модели-автора. Особо подчеркивается эффективность DA-MTL при работе с множеством языков и моделей. Также проведен анализ противодействия атакам, которые пытаются подделать авторство. ## Значимость DA-MTL может использоваться в области безопасности, форензики и мониторинга авторства текстов. Он позволяет установить границы между генерируемым и ручным текстом, а также определять, какая модель сгенерировала текст. Это делает его применимым в анти-спам-системах, фальсификации-защите, а также в анализе отчетов и социальных тенденций. Улучшение в области авторства генерируемого текста может иметь значительное влияние на проверку источников информации. ## Выводы Данная работа устанавливает новый подход к обеим задачам распознавания LLM-текста и определения авторства. Она показывает, что объединение многозадачного обучения может улучшить результаты как в распознавании, так и в авторстве. Будущие исследования будут направлены на расширение поддерживаемых языков, улучшение методов противодействия атакам

Annotation:

Large Language Models (LLMs), such as GPT-4 and Llama, have demonstrated remarkable abilities in generating natural language. However, they also pose security and integrity challenges. Existing countermeasures primarily focus on distinguishing AI-generated content from human-written text, with most solutions tailored for English. Meanwhile, authorship attribution--determining which specific LLM produced a given text--has received comparatively little attention despite its importance in forensic ...

ID: 2508.14190v1 cs.CR, cs.CL, cs.LG

arXiv PDF

📄 Optimizing Token Choice for Code Watermarking: A RL Approach

2025-08-19

Авторы:

Zhimeng Guo, Huaisheng Zhu, Siyuan Xu, Hangfan Zhang, Teng Xiao, Minhao Cheng

## Контекст Современное развитие глубокого обучения, особенно в области генерации текстов, привело к появлению моделей типа Large Language Models (LLM), способных генерировать высококачественный код. Однако возникла необходимость в прозрачном и уникальном привязывании авторства к такому коду. Традиционные методы watermarking часто не учитывают специфику синтаксически ограниченных языков программирования, что может привести к неэффективности или уязвимости. Это создает мотивацию для разработки более устойчивых и эффективных систем watermarking, способных корректно функционировать в таких ограниченных средах. ## Метод **CodeTracer** — это инновационная система watermarking, основанная на reinforcement learning. Ее основная черта — adaptive policy-driven approach, который использует parameterized model для управления token choice во время next-token prediction. Этот подход обеспечивает сохранение функциональности кода, при этом внедрение watermark незаметно для пользователя. Решения по максимизации результата включают: 1. **Gumbel Top-k reparameterization**, позволяющую оптимизировать дискретные решения. 2. **Comprehensive reward system**, который учитывает как процесс-level, так и outcome-level rewards. Подход CodeTracer позволяет идентифицировать подходящие token с помощью reinforcement learning, обеспечивая гибкость и точность в watermarking. ## Результаты Исследователи провели ряд экспериментов для оценки CodeTracer. Он был сравнивался с state-of-the-art baselines в тестовых средах. Основные результаты: - **Watermark detectability**: CodeTracer показал значительное улучшение в подсчете водяных знаков. - **Code functionality preservation**: Система смогла сохранить грамматическую и функциональную корректность в большинстве случаев. - **Evaluation metrics**: Результаты CodeTracer были выше на несколько процентов по отношению к baseline, что демонстрирует его преимущество. ## Значимость CodeTracer может применяться в различных сферах, где необходимо защитить авторство или контролировать применение LLM-generated code. Она позволяет: - **Повысить доверие пользователей** к коду, установив связь между кодом и его автором. - **Защитить от несанкционированного использования**, упростив возможность определения владельца. - **Применяться в коммерческих и академических сферах**, где защита прав и уникальность кода критичны. ## Выводы CodeTracer достигает высокой точности и эффективности в watermarking LLM-generated code. Он устанавливает новый стандарт в области adaptive code watermarking. Будущие исследования будут фокусироваться на улучшении scalability и упрощении механизмов reward system, чтобы совершенствовать систему CodeTracer и расширять ее возможности.

Annotation:

The need for detecting LLM-generated code necessitates watermarking systems capable of operating within its highly structured and syntactically constrained environment. To address this, we introduce CodeTracer, an innovative adaptive code watermarking framework underpinned by a novel reinforcement learning training paradigm. At its core, CodeTracer features a policy-driven approach that utilizes a parameterized model to intelligently bias token choices during next-token prediction. This strategy...

ID: 2508.11925v1 cs.CR, cs.CL, cs.LG

arXiv PDF

📄 ASTRA: Autonomous Spatial-Temporal Red-teaming for AI Software Assistants

2025-08-09

Авторы:

Xiangzhe Xu, Guangyu Shen, Zian Su, Siyuan Cheng, Hanxi Guo, Lu Yan, Xuan Chen, Jiasheng Jiang, Xiaolong Jin, Chengpeng Wang, Zhuo Zhang, Xiangyu Zhang

Развитие AI-драйвенных кодинг-ассистентов, таких как GitHub Copilot, достигает новых высот, но их безопасность в высокорисковых сферах, таких как кибербезопасность, остается нерешительной. Большинство существующих средств red-teaming ограничены фиксированными бенчмарками или артефактами, не отражающими реальных сценариев использования. Мы представляем ASTRA — систему автоматизированных агентов, разработанную для точечного выявления уязвимостей в AI-системах кода и рекомендаций по безопасности. ASTRA работает в трех этапах: строит доменно-специфические знаний-графы для моделирования задач и известных уязвимостей, проводит онлайн-выявление уязвимостей через спациальную и темпоральную проверку взаимодействия модели, и генерирует реалистичные, воздействующие на эффективность тестовые случаи. В отличие от предыдущих подходов, ASTRA использует реалистичные запросы разработчиков и оптимизирует знаний-графы в реальном времени. Оно выявило 11–66% больше уязвимостей по сравнению с конкурентами и улучшило обучение модели на 17%, демонстрируя свою практическую значимость для улучшения безопасности AI-систем.

Annotation:

AI coding assistants like GitHub Copilot are rapidly transforming software development, but their safety remains deeply uncertain-especially in high-stakes domains like cybersecurity. Current red-teaming tools often rely on fixed benchmarks or unrealistic prompts, missing many real-world vulnerabilities. We present ASTRA, an automated agent system designed to systematically uncover safety flaws in AI-driven code generation and security guidance systems. ASTRA works in three stages: (1) it builds...

ID: 2508.03936v1 cs.CR, cs.CL, cs.LG, cs.SE

arXiv PDF

Показано 11 - 13 из 13 записей