📊 Статистика дайджестов
Всего дайджестов: 34022 Добавлено сегодня: 82
Последнее обновление: сегодня
Авторы:
Zixin Rao, Youssef Mohamed, Shang Liu, Zeyan Liu
## Контекст
Современные Large Language Models (LLMs), такие как GPT-4 и Llama, достигли впечатляющего уровня в создании натурального текста, однако приносят с собой задачи связанные с безопасностью и аутентичностью содержимого. Недостаток решений для распознавания LLM-генерируемого текста и авторства генерируемых текстов, особенно за пределами английского языка, становится все более заметным. В то же время, авторство генерируемых текстов является ключевым вопросом в форензическом анализе. Данное исследование выделяет необходимость в решении обоих этих проблем одновременно, чтобы улучшить понимание характера действий LLMs.
## Метод
Предлагаемый подход, DA-MTL (Detection and Attribution via Multi-Task Learning), представляет собой модель multi-task learning, которая адресована задачей распознавания LLM-генерируемого текста и его авторства. Модель объединяет обучение на разных данных для каждой задачи, меняясь друг с другом, чтобы получать преимущества и делиться сведениями. Эта архитектура использует бэкбоны из нескольких моделей (например, RoBERTa, Llama, GPT-4) и применяет уникальные методы для каждого языка и генерирующей модели. Методология также включает анализ перекрестных модальностей и языков, чтобы стать более зернистой и устойчивой к атакам.
## Результаты
Работа оценивалась на девяти датасетах и четырьмя моделях, включая GPT-4, Llama, RoBERTa и XLM-RoBERTa, покрывая русский, английский, французский и немецкий языки. Модель показала высокую точность в определении текста, генерируемого LLM, и в определении конкретной модели-автора. Особо подчеркивается эффективность DA-MTL при работе с множеством языков и моделей. Также проведен анализ противодействия атакам, которые пытаются подделать авторство.
## Значимость
DA-MTL может использоваться в области безопасности, форензики и мониторинга авторства текстов. Он позволяет установить границы между генерируемым и ручным текстом, а также определять, какая модель сгенерировала текст. Это делает его применимым в анти-спам-системах, фальсификации-защите, а также в анализе отчетов и социальных тенденций. Улучшение в области авторства генерируемого текста может иметь значительное влияние на проверку источников информации.
## Выводы
Данная работа устанавливает новый подход к обеим задачам распознавания LLM-текста и определения авторства. Она показывает, что объединение многозадачного обучения может улучшить результаты как в распознавании, так и в авторстве. Будущие исследования будут направлены на расширение поддерживаемых языков, улучшение методов противодействия атакам
Annotation:
Large Language Models (LLMs), such as GPT-4 and Llama, have demonstrated
remarkable abilities in generating natural language. However, they also pose
security and integrity challenges. Existing countermeasures primarily focus on
distinguishing AI-generated content from human-written text, with most
solutions tailored for English. Meanwhile, authorship attribution--determining
which specific LLM produced a given text--has received comparatively little
attention despite its importance in forensic ...
Авторы:
Zhimeng Guo, Huaisheng Zhu, Siyuan Xu, Hangfan Zhang, Teng Xiao, Minhao Cheng
## Контекст
Современное развитие глубокого обучения, особенно в области генерации текстов, привело к появлению моделей типа Large Language Models (LLM), способных генерировать высококачественный код. Однако возникла необходимость в прозрачном и уникальном привязывании авторства к такому коду. Традиционные методы watermarking часто не учитывают специфику синтаксически ограниченных языков программирования, что может привести к неэффективности или уязвимости. Это создает мотивацию для разработки более устойчивых и эффективных систем watermarking, способных корректно функционировать в таких ограниченных средах.
## Метод
**CodeTracer** — это инновационная система watermarking, основанная на reinforcement learning. Ее основная черта — adaptive policy-driven approach, который использует parameterized model для управления token choice во время next-token prediction. Этот подход обеспечивает сохранение функциональности кода, при этом внедрение watermark незаметно для пользователя.
Решения по максимизации результата включают:
1. **Gumbel Top-k reparameterization**, позволяющую оптимизировать дискретные решения.
2. **Comprehensive reward system**, который учитывает как процесс-level, так и outcome-level rewards.
Подход CodeTracer позволяет идентифицировать подходящие token с помощью reinforcement learning, обеспечивая гибкость и точность в watermarking.
## Результаты
Исследователи провели ряд экспериментов для оценки CodeTracer. Он был сравнивался с state-of-the-art baselines в тестовых средах. Основные результаты:
- **Watermark detectability**: CodeTracer показал значительное улучшение в подсчете водяных знаков.
- **Code functionality preservation**: Система смогла сохранить грамматическую и функциональную корректность в большинстве случаев.
- **Evaluation metrics**: Результаты CodeTracer были выше на несколько процентов по отношению к baseline, что демонстрирует его преимущество.
## Значимость
CodeTracer может применяться в различных сферах, где необходимо защитить авторство или контролировать применение LLM-generated code. Она позволяет:
- **Повысить доверие пользователей** к коду, установив связь между кодом и его автором.
- **Защитить от несанкционированного использования**, упростив возможность определения владельца.
- **Применяться в коммерческих и академических сферах**, где защита прав и уникальность кода критичны.
## Выводы
CodeTracer достигает высокой точности и эффективности в watermarking LLM-generated code. Он устанавливает новый стандарт в области adaptive code watermarking. Будущие исследования будут фокусироваться на улучшении scalability и упрощении механизмов reward system, чтобы совершенствовать систему CodeTracer и расширять ее возможности.
Annotation:
The need for detecting LLM-generated code necessitates watermarking systems
capable of operating within its highly structured and syntactically constrained
environment. To address this, we introduce CodeTracer, an innovative adaptive
code watermarking framework underpinned by a novel reinforcement learning
training paradigm. At its core, CodeTracer features a policy-driven approach
that utilizes a parameterized model to intelligently bias token choices during
next-token prediction. This strategy...
Авторы:
Xiangzhe Xu, Guangyu Shen, Zian Su, Siyuan Cheng, Hanxi Guo, Lu Yan, Xuan Chen, Jiasheng Jiang, Xiaolong Jin, Chengpeng Wang, Zhuo Zhang, Xiangyu Zhang
Развитие AI-драйвенных кодинг-ассистентов, таких как GitHub Copilot, достигает новых высот, но их безопасность в высокорисковых сферах, таких как кибербезопасность, остается нерешительной. Большинство существующих средств red-teaming ограничены фиксированными бенчмарками или артефактами, не отражающими реальных сценариев использования. Мы представляем ASTRA — систему автоматизированных агентов, разработанную для точечного выявления уязвимостей в AI-системах кода и рекомендаций по безопасности. ASTRA работает в трех этапах: строит доменно-специфические знаний-графы для моделирования задач и известных уязвимостей, проводит онлайн-выявление уязвимостей через спациальную и темпоральную проверку взаимодействия модели, и генерирует реалистичные, воздействующие на эффективность тестовые случаи. В отличие от предыдущих подходов, ASTRA использует реалистичные запросы разработчиков и оптимизирует знаний-графы в реальном времени. Оно выявило 11–66% больше уязвимостей по сравнению с конкурентами и улучшило обучение модели на 17%, демонстрируя свою практическую значимость для улучшения безопасности AI-систем.
Annotation:
AI coding assistants like GitHub Copilot are rapidly transforming software
development, but their safety remains deeply uncertain-especially in
high-stakes domains like cybersecurity. Current red-teaming tools often rely on
fixed benchmarks or unrealistic prompts, missing many real-world
vulnerabilities. We present ASTRA, an automated agent system designed to
systematically uncover safety flaws in AI-driven code generation and security
guidance systems. ASTRA works in three stages: (1) it builds...
Показано 11 -
13
из 13 записей