📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня

📄 Self-Disguise Attack: Induce the LLM to disguise itself for AIGT detection evasion

2025-08-25

Авторы:

Yinghan Zhou, Juan Wen, Wanli Peng, Zhengxian Wu, Ziwei Zhang, Yiming Xue

#### Контекст AI-generated text (AIGT) становится все более популярным в приложениях, от создания контента до поддержки решающих процессов. Однако, это приводит к повышению риска мошенничества и абьюза, что делает необходимым развитие эффективных систем по его детекции. Несмотря на прогресс в области AIGT-детекторов, эти системы часто сталкиваются с проблемами, такими как высокая стоимость вычислений, ухудшение качества текста и жесткий контроль за этим текстом в реальном времени. Еще одной проблемой является отсутствие разнообразия в текстах, порожденных детекторами, что ухудшает их точность и надежность в практических задачах. Мотивирует это оптимизация существующих техник, улучшение их устойчивости, минимизация издержек, а также повышение качества текста, который они генерируют. #### Метод Для решения этих проблем мы предлагаем **Self-Disguise Attack (SDA)** — новую методику для уменьшения вероятности детекции AIGT. Решение состоит из двух основных компонентов: **adversarial feature extractor** и **retrieval-based context examples optimizer**. **Adversarial feature extractor** позволяет LLMs понять, как генерировать более реалистичный текст, подобный человеческому. Он делает это с помощью обучения на атакуемых примерах и использования функций адверсарного обучения. **Retrieval-based context examples optimizer**, в свою очередь, извлекает самые подходящие примеры из внешней базы знаний, которые далее используются в качестве in-context examples для дальнейшего создания текста. Это позволяет LLM глубже погрузиться в контекст и делать текст более скрытным, а также уменьшает потери в его разнообразии. Наконец, SDA использует простые промышленные предложения и внешние примеры в качестве входных данных для LLM, чтобы уменьшить ресурсоемкость процесса. #### Результаты Мы провели эксперименты с тремя разными LLMs и различными AIGT-детекторами. Наши результаты показывают, что SDA эффективно уменьшает среднюю точность детекторов AIGT, делая процесс даже более устойчивым к системам, которые используют мощные модели глубокого обучения. Точность детекции снизилась на значительные проценты, при этом качество текста, генерируемого LLM, осталось высоким. Это указывает на успех SDA в сочетании уменьшения вероятности детекции с сохранением качества текста, что делает его привлекательным для практического применения. #### Значимость SDA может быть применено в различных областях, таких как мониторинг социальных сетей, распознавание поддельных отзывов, а также для оценки качества детекторов AIGT. Он делает эти системы более надежными, уменьшая риск мошенничества и повышая уровень доверия к текстам, генерируемым AI. Это также открывает новые возможности для бо

Annotation:

AI-generated text (AIGT) detection evasion aims to reduce the detection probability of AIGT, helping to identify weaknesses in detectors and enhance their effectiveness and reliability in practical applications. Although existing evasion methods perform well, they suffer from high computational costs and text quality degradation. To address these challenges, we propose Self-Disguise Attack (SDA), a novel approach that enables Large Language Models (LLM) to actively disguise its output, reducing ...

ID: 2508.15848v1 cs.CR, cs.CL

arXiv PDF

📄 Retrieval-Augmented Review Generation for Poisoning Recommender Systems

2025-08-23

Авторы:

Shiyi Yang, Xinshu Li, Guanglin Zhou, Chen Wang, Xiwei Xu, Liming Zhu, Lina Yao

#### Контекст Рекомендательные системы (RS) широко используются в различных сферах жизнедеятельности, но часто становятся целью атак, направленных на их ошибочные рекомендации. Одна из самых опасных атак — **data poisoning attack**, при которой злоумышленники вводят поддельные данные, такие как поддельные рейтинги или профили пользователей. Эти атаки могут серьезно повлиять на рекомендации и, в итоге, привести к негативным последствиям в сфере бизнеса или общества. Основной проблемой в этой области является то, что атакующие агенты часто ограничены в доступе к информации о системе, что делает их попытки подстраховаться против детектирования и повышения эффективности атаки более сложными. #### Метод В этой работе предлагается **RAGAN** (Retrieval-Augmented Review Generation for Poisoning Recommender Systems) — новая практическая модель для создания высококачественных поддельных профилей, которые могут эффективно слабить рекомендательные системы. Методология RAGAN основывается на использовании **in-context learning (ICL)**, внедренного в multimodal foundation models. Для этого используется алгоритм рекомендации реальных данных, предназначенный для помощи в генерации текстовых отзывов, а также **text style transfer**, который позволяет сделать эти отзывы более разнообразными и индивидуальными. Такой подход позволяет повысить качество генерируемых отзывов и, следовательно, эффективность атаки. #### Результаты Для оценки эффективности модели RAGAN проводились тесты на нескольких реальных данных, в том числе данных с открытого доступа. Модель показала себя лучше, чем предыдущие модели, которые пытались слабить RS. Она достигла результатов, которые подтверждают то, что модель может быть эффективно применена для тестирования рекомендательных систем. Кроме того, модель показала значительное улучшение показателей по сравнению с базовой моделью ICL, а также показала высокую степень imperceptibility в своих атаках. Это значит, что RAGAN может генерировать поддельные профили, которые сложно выявить в нормальных условиях. #### Значимость Этот подход может быть применен в различных областях, где используются рекомендательные системы, таких как электронная коммерция, социальные сети или медицинская информация. RAGAN позволяет улучшить тестирование и понимание уязвимостей RS, что может привести к более надежным и безопасным рекомендательным системам. В целом, подход RAGAN демонстрирует возможность повышения качества генерации текстов и их сочетания с моделями ICL для решения проблем с poisoning attacks. Это направляет напряженность исследований в сторону более безопасных рекомендательных систем. #### Выводы В ходе исследования был разработан новый подход для создания высококачественных поддельных профилей, который можно использовать для тест

Annotation:

Recent studies have shown that recommender systems (RSs) are highly vulnerable to data poisoning attacks, where malicious actors inject fake user profiles, including a group of well-designed fake ratings, to manipulate recommendations. Due to security and privacy constraints in practice, attackers typically possess limited knowledge of the victim system and thus need to craft profiles that have transferability across black-box RSs. To maximize the attack impact, the profiles often remains imperc...

ID: 2508.15252v1 cs.CR, cs.CL, cs.IR

arXiv PDF

📄 MultiFuzz: A Dense Retrieval-based Multi-Agent System for Network Protocol Fuzzing

2025-08-22

Авторы:

Youssef Maklad, Fares Wael, Ali Hamdi, Wael Elsersy, Khaled Shaban

Да, вот резюме научной статьи в указанной структуре: ## Контекст Протокол fuzzing — это процесс, направленный на выявление уязвимостей в сетевых протоколах путем создания и отправки специально сконструированных некорректных сообщений. Однако традиционные методы, такие как AFL-based системы, не всегда эффективны из-за ограниченного понимания семантики сложных грамматик протоколов и строгой стратегии мутации семента. Недавние работы, такие как ChatAFL, включают Large Language Models (LLMs) для улучшения эффективности fuzzing, но столкнулись с проблемами, такими как нестабильность вывода, синтетические ошибки, а также предположение, что LLM имеет знания о спецификациях протоколов. Эти ограничения могут привести к недоступности глубинных состояний протокола и ограниченной обнаруживаемости уязвимостей. Таким образом, требуется новая подходящая архитектура, которая улучшит семантическое понимание, увеличит соответствие синтаксическим ограничениям и увеличит глубину тестирования протоколов. ## Метод MultiFuzz — это новая система, основанная на dense retrieval, которая использует тонкие агенты (multi-agent system) для протокола fuzzing. Она интегрирует знания из документации RFC с помощью dense retrieval и векторной базы данных. Это позволяет MultiFuzz генерировать более структурированные и надежные выходы с помощью RAG (retrieval-augmented generation) pipeline. Агенты в MultiFuzz работают как специализированные модули, которые сотрудничают через chain-of-thought (CoT) reasoning. Это позволяет динамически адаптировать стратегии fuzzing на основе полученного контекста. Таким образом, MultiFuzz предлагает усовершенствованный подход к fuzzing, используя семантическое понимание, структурированное управление и эффективное использование LLMs для достижения более глубокого и надежного тестирования протоколов. ## Результаты Эксперименты проводились на Real-Time Streaming Protocol (RTSP), где MultiFuzz был сравнен с тремя современными SOTA протокольными fuzzers: NSFuzz, AFLNet и ChatAFL. MultiFuzz показал значительное улучшение в глубине и широте исследования состояний протокола, включая более высокий branch coverage и полноту покрытия протокола. Это достигнуто благодаря точному пониманию семантики RFC-документов, гибкой стратегии мутации и использованию LLM-based reasoning для развития более глубоких и структурированных тестовых сообщений. Эти результаты демонстрируют, что MultiFuzz превосходит традиционные fuzzers в обнаружении новых протокольных состояний и уязвимостей. ## Значимость Такие результаты открывают новые возможности в области autonomic fuzzing. MultiFuzz может быть применен в различных областях, включая безопасность сетевых протоколов, анализ уязвимостей и тестирование сложных систем. Оно предлагает более надежный и структ

Annotation:

Traditional protocol fuzzing techniques, such as those employed by AFL-based systems, often lack effectiveness due to a limited semantic understanding of complex protocol grammars and rigid seed mutation strategies. Recent works, such as ChatAFL, have integrated Large Language Models (LLMs) to guide protocol fuzzing and address these limitations, pushing protocol fuzzers to wider exploration of the protocol state space. But ChatAFL still faces issues like unreliable output, LLM hallucinations, a...

ID: 2508.14300v1 cs.CR, cs.CL, cs.MA, cs.NI

arXiv PDF

📄 Two Birds with One Stone: Multi-Task Detection and Attribution of LLM-Generated Text

2025-08-22

Авторы:

Zixin Rao, Youssef Mohamed, Shang Liu, Zeyan Liu

## Контекст Современные Large Language Models (LLMs), такие как GPT-4 и Llama, достигли впечатляющего уровня в создании натурального текста, однако приносят с собой задачи связанные с безопасностью и аутентичностью содержимого. Недостаток решений для распознавания LLM-генерируемого текста и авторства генерируемых текстов, особенно за пределами английского языка, становится все более заметным. В то же время, авторство генерируемых текстов является ключевым вопросом в форензическом анализе. Данное исследование выделяет необходимость в решении обоих этих проблем одновременно, чтобы улучшить понимание характера действий LLMs. ## Метод Предлагаемый подход, DA-MTL (Detection and Attribution via Multi-Task Learning), представляет собой модель multi-task learning, которая адресована задачей распознавания LLM-генерируемого текста и его авторства. Модель объединяет обучение на разных данных для каждой задачи, меняясь друг с другом, чтобы получать преимущества и делиться сведениями. Эта архитектура использует бэкбоны из нескольких моделей (например, RoBERTa, Llama, GPT-4) и применяет уникальные методы для каждого языка и генерирующей модели. Методология также включает анализ перекрестных модальностей и языков, чтобы стать более зернистой и устойчивой к атакам. ## Результаты Работа оценивалась на девяти датасетах и четырьмя моделях, включая GPT-4, Llama, RoBERTa и XLM-RoBERTa, покрывая русский, английский, французский и немецкий языки. Модель показала высокую точность в определении текста, генерируемого LLM, и в определении конкретной модели-автора. Особо подчеркивается эффективность DA-MTL при работе с множеством языков и моделей. Также проведен анализ противодействия атакам, которые пытаются подделать авторство. ## Значимость DA-MTL может использоваться в области безопасности, форензики и мониторинга авторства текстов. Он позволяет установить границы между генерируемым и ручным текстом, а также определять, какая модель сгенерировала текст. Это делает его применимым в анти-спам-системах, фальсификации-защите, а также в анализе отчетов и социальных тенденций. Улучшение в области авторства генерируемого текста может иметь значительное влияние на проверку источников информации. ## Выводы Данная работа устанавливает новый подход к обеим задачам распознавания LLM-текста и определения авторства. Она показывает, что объединение многозадачного обучения может улучшить результаты как в распознавании, так и в авторстве. Будущие исследования будут направлены на расширение поддерживаемых языков, улучшение методов противодействия атакам

Annotation:

Large Language Models (LLMs), such as GPT-4 and Llama, have demonstrated remarkable abilities in generating natural language. However, they also pose security and integrity challenges. Existing countermeasures primarily focus on distinguishing AI-generated content from human-written text, with most solutions tailored for English. Meanwhile, authorship attribution--determining which specific LLM produced a given text--has received comparatively little attention despite its importance in forensic ...

ID: 2508.14190v1 cs.CR, cs.CL, cs.LG

arXiv PDF

📄 Mitigating Jailbreaks with Intent-Aware LLMs

2025-08-20

Авторы:

Wei Jie Yeo, Ranjan Satapathy, Erik Cambria

#### Контекст Область исследования сосредоточена на обеспечении безопасности и устойчивости к интерпретации задач (jailbreaks) крупных языковых моделей (LLMs). Эти модели часто оказываются уязвимыми из-за того, что их тренировочные данные не полностью охватывают потенциально опасные или вредоносные инструкции. Такие уязвимости включают в себя манипуляции с инструкциями, позволяющие моделям выдавать злонамеренные или нежелательные ответы. Это создает трудную проблему для разработчиков, которые должны сбалансировать безопасность и производительность задач моделей. Настоящая работа стремится устранить эти проблемы, создав эффективный метод, который улучшает устойчивость моделей к таким атакам. #### Метод Мы предлагаем Intent-FT, метод легковесной тонкой настройки (fine-tuning), который учитывает намерение, скрытое за входной инструкцией. Этот подход обучает модель понимать интент за поставленной задачей, прежде чем совершать какие-либо действия. Основная идея заключается в том, чтобы обучить модель на заранее подобранных атаках в форме вредоносных инструкций, чтобы она могла выделять основной импульс их поведения. Мы используем специально созданный набор данных для обучения, который включает в себя различные виды вредоносных инструкций. Это позволяет модели генерировать устойчивые ответы, даже на неизвестные атаки. Метод Intent-FT применяется к LLMs различных размеров и архитектур, обеспечивая широкую покрытие и эффективность. #### Результаты Мы провели разнообразные эксперименты для оценки Intent-FT на открытых и закрытых моделях. Мы протестировали его возможности в отношении различных типов атак, включая опасные и нежелательные инструкции. Результаты показали, что Intent-FT существенно повышает устойчивость по отношению к всех проверенным атакам. Мы также сравнили существующие методы защиты и показали, что Intent-FT превосходит их в значительной степени. Уровень успеха всех проверенных атак не превышал 50%, в то время как другие методы защиты оставались частично эффективными. Также, мы проверили метод на наличии лишних отказов в отношении наивных инструкций, содержащих нежелательные слова, и выявили, что Intent-FT снижает эти ложные срабатывания. #### Значимость Intent-FT может быть применен в различных областях, таких как безопасность информационных систем, создание защищенных технологий для частных пользователей и бизнеса, а также в области обработки естественного языка. Метод предоставляет значительные преимущества, включая улучшенную безопасность, более точную интерпретацию задач и уменьшение ложных срабатываний. Это может повлиять на

Annotation:

Despite extensive safety-tuning, large language models (LLMs) remain vulnerable to jailbreak attacks via adversarially crafted instructions, reflecting a persistent trade-off between safety and task performance. In this work, we propose Intent-FT, a simple and lightweight fine-tuning approach that explicitly trains LLMs to infer the underlying intent of an instruction before responding. By fine-tuning on a targeted set of adversarial instructions, Intent-FT enables LLMs to generalize intent dedu...

ID: 2508.12072v1 cs.CR, cs.CL

arXiv PDF

📄 Optimizing Token Choice for Code Watermarking: A RL Approach

2025-08-19

Авторы:

Zhimeng Guo, Huaisheng Zhu, Siyuan Xu, Hangfan Zhang, Teng Xiao, Minhao Cheng

## Контекст Современное развитие глубокого обучения, особенно в области генерации текстов, привело к появлению моделей типа Large Language Models (LLM), способных генерировать высококачественный код. Однако возникла необходимость в прозрачном и уникальном привязывании авторства к такому коду. Традиционные методы watermarking часто не учитывают специфику синтаксически ограниченных языков программирования, что может привести к неэффективности или уязвимости. Это создает мотивацию для разработки более устойчивых и эффективных систем watermarking, способных корректно функционировать в таких ограниченных средах. ## Метод **CodeTracer** — это инновационная система watermarking, основанная на reinforcement learning. Ее основная черта — adaptive policy-driven approach, который использует parameterized model для управления token choice во время next-token prediction. Этот подход обеспечивает сохранение функциональности кода, при этом внедрение watermark незаметно для пользователя. Решения по максимизации результата включают: 1. **Gumbel Top-k reparameterization**, позволяющую оптимизировать дискретные решения. 2. **Comprehensive reward system**, который учитывает как процесс-level, так и outcome-level rewards. Подход CodeTracer позволяет идентифицировать подходящие token с помощью reinforcement learning, обеспечивая гибкость и точность в watermarking. ## Результаты Исследователи провели ряд экспериментов для оценки CodeTracer. Он был сравнивался с state-of-the-art baselines в тестовых средах. Основные результаты: - **Watermark detectability**: CodeTracer показал значительное улучшение в подсчете водяных знаков. - **Code functionality preservation**: Система смогла сохранить грамматическую и функциональную корректность в большинстве случаев. - **Evaluation metrics**: Результаты CodeTracer были выше на несколько процентов по отношению к baseline, что демонстрирует его преимущество. ## Значимость CodeTracer может применяться в различных сферах, где необходимо защитить авторство или контролировать применение LLM-generated code. Она позволяет: - **Повысить доверие пользователей** к коду, установив связь между кодом и его автором. - **Защитить от несанкционированного использования**, упростив возможность определения владельца. - **Применяться в коммерческих и академических сферах**, где защита прав и уникальность кода критичны. ## Выводы CodeTracer достигает высокой точности и эффективности в watermarking LLM-generated code. Он устанавливает новый стандарт в области adaptive code watermarking. Будущие исследования будут фокусироваться на улучшении scalability и упрощении механизмов reward system, чтобы совершенствовать систему CodeTracer и расширять ее возможности.

Annotation:

The need for detecting LLM-generated code necessitates watermarking systems capable of operating within its highly structured and syntactically constrained environment. To address this, we introduce CodeTracer, an innovative adaptive code watermarking framework underpinned by a novel reinforcement learning training paradigm. At its core, CodeTracer features a policy-driven approach that utilizes a parameterized model to intelligently bias token choices during next-token prediction. This strategy...

ID: 2508.11925v1 cs.CR, cs.CL, cs.LG

arXiv PDF

📄 Fact2Fiction: Targeted Poisoning Attack to Agentic Fact-checking System

2025-08-12

Авторы:

Haorui He, Yupeng Li, Bin Benjamin Zhu, Dacheng Wen, Reynold Cheng, Francis C. M. Lau

## Контекст Реализация современных факт-чеккинг-систем, основанных на агентных технологиях, является ответом на масштабное распространение фальсификаций и неточностей в цифровой сфере. Эти системы разделяют комплексные утверждения на мелкие подзадачи, которые поэлементно проверяются, а результаты комбинируются в обоснованные вердикты со сносками. Их безопасность гарантирует доверие пользователей к получаемым сведениям. Однако, недооцененность возможности их компрометации может привести к негативным последствиям, таким как повторное распространение неточных сведений. Мотивация создания Fact2Fiction заключается в изучении уязвимостей таких систем и разработке подхода, усиливающего их подверженность к токсичным атакам. ## Метод Fact2Fiction реализует новую методологию атак, ориентированную на токсичность, которая эмулирует стратегию декомпозиции утверждений системы и использует её выводы для создания целевых манипуляций. Архитектура основывается на синтезе злоумышленных доказательств, которые выбрасываются в процессе проверки подзадач. Эти доказательства были обучены с помощью глубоких нейронных сетей, чтобы имитировать естественный язык и уменьшить вероятность выявления нарушения. Разработанный подход позволил максимально эффективно использовать ограниченные затраты ресурсов для максимального воздействия. ## Результаты Наблюдается высокая эффективность Fact2Fiction в проведении атак на целевые системы. Проведенные эксперименты показали, что атаки Fact2Fiction приводят к увеличению успешности от 8.9% до 21.2% по сравнению с другими атаками под учетом ограниченных затрат на подделку. Это было достигнуто благодаря точной адаптации злоумышленных доказательств к структуре системы. Такие результаты подтверждают уязвимость современных факт-чеккинг-систем и говорят об удобстве использования Fact2Fiction в реальных условиях. ## Значимость Полученные результаты открывают широкие возможности для распространения зла в рамках массовой информационной сферы. Злоумышленники могут воспользоваться Fact2Fiction для токсичного воздействия на автоматизированные системы проверки фактов, что приведет к усилению распространения неточностей. Такой подход имеет практическое значение в области безопасности цифровых систем, особенно тех, которые используются для поиска и проверки информации. Направления будущих исследований могут включать развитие защитных механизмов и алгоритмов, улучшающих безопасность и надежность агентных факт-чеккинг-систем. ## Выводы Fact2Fiction является первым фреймворком, демонстрирующим уязвимо

Annotation:

State-of-the-art fact-checking systems combat misinformation at scale by employing autonomous LLM-based agents to decompose complex claims into smaller sub-claims, verify each sub-claim individually, and aggregate the partial results to produce verdicts with justifications (explanatory rationales for the verdicts). The security of these systems is crucial, as compromised fact-checkers, which tend to be easily underexplored, can amplify misinformation. This work introduces Fact2Fiction, the first...

ID: 2508.06059v1 cs.CR, cs.CL

arXiv PDF

📄 ASTRA: Autonomous Spatial-Temporal Red-teaming for AI Software Assistants

2025-08-09

Авторы:

Xiangzhe Xu, Guangyu Shen, Zian Su, Siyuan Cheng, Hanxi Guo, Lu Yan, Xuan Chen, Jiasheng Jiang, Xiaolong Jin, Chengpeng Wang, Zhuo Zhang, Xiangyu Zhang

Развитие AI-драйвенных кодинг-ассистентов, таких как GitHub Copilot, достигает новых высот, но их безопасность в высокорисковых сферах, таких как кибербезопасность, остается нерешительной. Большинство существующих средств red-teaming ограничены фиксированными бенчмарками или артефактами, не отражающими реальных сценариев использования. Мы представляем ASTRA — систему автоматизированных агентов, разработанную для точечного выявления уязвимостей в AI-системах кода и рекомендаций по безопасности. ASTRA работает в трех этапах: строит доменно-специфические знаний-графы для моделирования задач и известных уязвимостей, проводит онлайн-выявление уязвимостей через спациальную и темпоральную проверку взаимодействия модели, и генерирует реалистичные, воздействующие на эффективность тестовые случаи. В отличие от предыдущих подходов, ASTRA использует реалистичные запросы разработчиков и оптимизирует знаний-графы в реальном времени. Оно выявило 11–66% больше уязвимостей по сравнению с конкурентами и улучшило обучение модели на 17%, демонстрируя свою практическую значимость для улучшения безопасности AI-систем.

Annotation:

AI coding assistants like GitHub Copilot are rapidly transforming software development, but their safety remains deeply uncertain-especially in high-stakes domains like cybersecurity. Current red-teaming tools often rely on fixed benchmarks or unrealistic prompts, missing many real-world vulnerabilities. We present ASTRA, an automated agent system designed to systematically uncover safety flaws in AI-driven code generation and security guidance systems. ASTRA works in three stages: (1) it builds...

ID: 2508.03936v1 cs.CR, cs.CL, cs.LG, cs.SE

arXiv PDF

Показано 51 - 58 из 58 записей