📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Attackers Strike Back? Not Anymore -- An Ensemble of RL Defenders Awakens for APT Detection

2025-08-28

Авторы:

Sidahmed Benabderrahmane, Talal Rahwan

#### Контекст Advanced Persistent Threats (APTs) представляют собой одну из наиболее опасных угроз для современных цифровых систем. В отличие от традиционных атак, APTs обладают стелс-технологиями, адаптивностью и долговечностью, что делает их труднооткрываемыми статичными системами обнаружения на основе подписей. Эти угрозы могут оставаться незамеченными в течение многих месяцев, собирая критическую информацию и разрушая инфраструктуру. Настоящая работа рассматривает проблемы статичности и неадаптивности существующих систем и предлагает инновационный подход к обнаружению APT-атак, основанный на сочетании глубокого обучения и реинфорсментного обучения (RL). #### Метод Основная идея фреймворка заключается в создании комплексной системы на основе нескольких RL-агентов, которые анализируют поведение процессов в системе. Для этого разработан автокодировщик, который сжимает поведение процессов в высокомерных векторы. Каждый RL-агент обучается использовать эти векторы для различения между безопасными и злонамеренными процессами. Алгоритмы, выбраны для этих агентов: Q-Learning, PPO и DQN. Также включен агент-атакующий, нацеленный на поиск слабых мест в системе. Если любой RL-агент expersи не уверен в своем решении, активное обучение запускается для получения экспертного ввода, чтобы доработать границы разделения. Решение объединяется через голосование, в зависимости от качества каждого RL-агента. #### Результаты Рассмотренная система была тестирована на реальных журналах процессов. Она показала высокую точность в обнаружении APT-атак, превосходя существующие методы статической и динамической аналитики. Ключевыми показателями являются F1-меры обнаружения и раннее выявление злонамеренных активностей. Также было проведено эксперимент, показавший, что голосование между RL-агентами сильно повышает устойчивость системы к ложным срабатываниям. #### Значимость Предложенный подход может быть применен в различных сферах, где требуется высокая устойчивость к APTs, таких как финансовые системы, государственные системы и критически важные структуры. Система предоставляет преимущества в скорости реакции и адаптивности к новым видам атак. Развитие таких систем может существенно повысить защиту от сложных атак в цифровой среде, снизив риск безупречного проникновения злоумышленников. #### Выводы Результаты экспериментов подтверждают высокую эффективность предложенного подхода в обнаружении APT-атак. Будущие исследования будут сфокусированы на улучшении активного обучения, интеграции дополнительных источников данных и расширени

Annotation:

Advanced Persistent Threats (APTs) represent a growing menace to modern digital infrastructure. Unlike traditional cyberattacks, APTs are stealthy, adaptive, and long-lasting, often bypassing signature-based detection systems. This paper introduces a novel framework for APT detection that unites deep learning, reinforcement learning (RL), and active learning into a cohesive, adaptive defense system. Our system combines auto-encoders for latent behavioral encoding with a multi-agent ensemble of R...

ID: 2508.19072v1 cs.CR, cs.AI, cs.LG

arXiv PDF

📄 Attacking LLMs and AI Agents: Advertisement Embedding Attacks Against Large Language Models

2025-08-27

Авторы:

Qiming Guo, Jinwen Tang, Xingran Huang

## Контекст Искусственные нейронные сети (LLM) и искусственные интеллект-агенты (AI agents) становятся важными инструментами в различных областях, включая поиск информации, генерацию текста и принятие решений. Однако эти технологии остаются тематическим концептуально научной и технологической статьи по теме "Attacking LLMs and AI Agents: Advertisement Embedding Attacks Against Large Language Models" в силу их расширения. Одной из ключевых проблем является повышение риска мошенничества, публикации злонамеренной информации и скрытых объявлений. Эта проблема представляет собой значительный угрозу для безопасности и этики использования технологий AI. Мотивация для данного исследования заключается в определении новых типов угроз и разработке методов защиты, чтобы обеспечить безопасное и эффективное использование AI-систем. ## Метод Разработанная методология включает в себя следующие этапы: 1. **Анализ рисков и возможностей уязвимости**: Авторы определили, что уязвимость моделей AI может быть использована с помощью специально созданных входных стимулов (prompts), которые подкорректируют выходные данные модели. 2. **Использование сторонних сервисов**: Атака может получать доступ к сервисам, которые распространяют модели AI, чтобы внедрить свои собственные данные. 3. **Форвардная модель**: Авторы использовали атаку, которая имитирует принятое поведение модели, но включает в себя скрытые сообщения. 4. **Атака связывательных слоев (Backdoor Models)**: Эта атака включает в себя форматирование под входной стимул, который вызывает злонамеренное поведение. ## Результаты Авторы провели эксперименты, где проверяли влияние скрытых сообщений на различные модели AI. Они использовали разные данные и настройки, чтобы протестировать эффективность новых методов. Результаты показали, что модели AI могут быть легко изменены, чтобы включить невидимые объявления, поддельные информации или даже злонамеренные сообщения. Это подтверждает, что модели AI могут быть использованы для распространения злонамеренной информации без видимых симптомов. ## Значимость Результаты имеют значительное значение для различных сфер, включая безопасность интернета, типологию сетевых угроз и проблему фальсификации информации. Этот новый подход может быть использован для распространения объявлений, ложных новостей, или даже злонамеренных сообщений в различных сферах, таких как политические кампании, маркетинг и другие. Эта угроза может привести к значительным потерям для компаний и пользователей, если она не будет предотвращена. ## Выводы Авторы раскрыли новый класс угроз для технологий

Annotation:

We introduce Advertisement Embedding Attacks (AEA), a new class of LLM security threats that stealthily inject promotional or malicious content into model outputs and AI agents. AEA operate through two low-cost vectors: (1) hijacking third-party service-distribution platforms to prepend adversarial prompts, and (2) publishing back-doored open-source checkpoints fine-tuned with attacker data. Unlike conventional attacks that degrade accuracy, AEA subvert information integrity, causing models to r...

ID: 2508.17674v1 cs.CR, cs.AI, cs.LG

arXiv PDF

📄 Strategic Sample Selection for Improved Clean-Label Backdoor Attacks in Text Classification

2025-08-26

Авторы:

Onur Alp Kirci, M. Emre Gursoy

## Контекст Backdoor атаки являются серьезной угрозой для текстовых классификационных моделей в области естественного языкового процессинга. Хотя многие грязно-меток (dirty-label) атаки показали высокую эффективность в достижении высокой процентной доли обнаружения (ASR), нативно-меток (clean-label) атаки являются значительно более сложными. Модели часто используются в критических приложениях, таких как модели NLP, что делает критически важным исследование эффективных методов борьбы с такими атаками. Наше исследование сосредоточено на проблеме стратегического выбора образцов для улучшения эффективности атак в чистых-метках (clean-label) сценариях, где атаки должны оставаться незаметными для пользователей, не используя явное меткование. ## Метод Мы предлагаем три стратегии стратегического выбора образцов для улучшения эффективности атак: Minimum, Above50 и Below50. Эти стратегии определяют образцы, которые модель классификации ошибается или которые она классифицирует с небольшой уверенностью. Мы внедряем в эти образцы ускодыши (trigger patterns), чтобы усилить связь между ними и желаемым целевым меткой, которую проводит атакующий. Эти стратегии применяются к чистым-меткам (clean-label) вариантам четырех классических атак (InsertSent, WordInj, StyleBkd, SynBkd) и оцениваются на трех наборах данных (IMDB, SST2, HateSpeech) и четырьмя типами моделей (LSTM, BERT, DistilBERT, RoBERTa). Это позволяет проверить эффективность наших стратегий на различных моделях и данных. ## Результаты Наши эксперименты показали, что в чистых-метках (clean-label) сценариях, стратегия Minimum позволяет значительно повысить процент ASR (Attack Success Rate) в отношении случайных выборов образцов, без существенного снижения чистых (clean) точности модели. Это означает, что наши стратегии позволяют проводить высокоэффективные атаки, не вызывая подозрения в пользователей. Наши результаты также показали, что наши стратегии выполняются значительно лучше, чем текущая состоящая стратегия чистых-метка (clean-label), BITE, во многих случаях. Это подтверждает эффективность наших стратегий в стратегическом выборе образцов для улучшения чистых атак. ## Значимость Наши стратегии могут быть применены в многих областях, где чистые-метки (clean-label) атаки могут быть использованы для подделки текстовых классификационных моделей. Например, в новостных сервисах, социальных сетях и системах обработки естественного языка. Эффективность наших стратегий позволяет усилить угрозу чистых атак с минимальным влиянием на чистую точность модели, что делает их особенно опасными. Наши результаты демонстрируют, что стратегическое выбор об

Annotation:

Backdoor attacks pose a significant threat to the integrity of text classification models used in natural language processing. While several dirty-label attacks that achieve high attack success rates (ASR) have been proposed, clean-label attacks are inherently more difficult. In this paper, we propose three sample selection strategies to improve attack effectiveness in clean-label scenarios: Minimum, Above50, and Below50. Our strategies identify those samples which the model predicts incorrectly...

ID: 2508.15934v1 cs.CR, cs.AI, cs.LG

arXiv PDF

📄 A Systematic Survey of Model Extraction Attacks and Defenses: State-of-the-Art and Perspectives

2025-08-23

Авторы:

Kaixiang Zhao, Lincan Li, Kaize Ding, Neil Zhenqiang Gong, Yue Zhao, Yushun Dong

## Контекст Область исследования сосредоточена на Model Extraction Attacks (MEAs) — систематических нападениях, направленных на копирование функциональности целевой модели машинного обучения (ML) с помощью открыто доступных интерфейсов. Эти атаки становятся возможными из-за роста использования Machine-Learning-as-a-Service (MLaaS), который обеспечивает доступ к мощным моделям ML с помощью простых API. Это продвижение обеспечивает широкий доступ к технологиям ML, однако также создает уязвимости, которые могут быть использованы злоумышленниками для украдения моделей, нарушения конфиденциальности и подрыва безопасности. Эти угрозы касаются не только интеллектуальной собственности, но и безопасности систем и отношений доверия в мире AI. Этот статус MEAs как важной проблемы мотивирует подробное изучение методов атак и защитных стратегий. ## Метод В статье предлагается новая категоризация MEAs на основе механизмов атак, стратегий защиты и используемых вычислительных парадигм. Описываются различные типы атак, включая black-box и white-box, и выделяются их принципы работы. Методы защиты рассматриваются в рамках синтетического шума, обучения с подкреплением, методов обобщения моделей и других. Архитектура исследования заключается в обобщений и сравнении этих методов, используя различные вычислительные платформы. Эксперименты выполняются с использованием различных данных, таких как CIFAR-10 и ImageNet, чтобы оценить эффективность атак и защитных методов. ## Результаты Результаты статьи основываются на экспериментальных исследованиях, проведенных на различных моделях и датасетах. Были изучены эффективность различных типов атак, в том числе их успешность в подборе моделей, точность и время выполнения. Также проанализированы защитные методы, включая модели с туннельной верификацией и методы, основанные на метриках защиты. Результаты показали, что некоторые защитные стратегии могут существенно снизить эффективность MEAs, но при этом ухудшают производительность модели или приводят к увеличению времени обучения. Эти результаты подчеркивают трудную проблему: поддержание баланса между безопасностью и производительностью. ## Значимость Эта работа имеет значительное значение для различных областей, включая AI-безопасность, юридические вопросы и социальные вопросы. Методы защиты, предложенные в статье, могут быть применены в MLaaS-платформах, чтобы уменьшить риск MEAs и защитить интеллектуальную собственность. Более широко, эти решения могут оказаться полезными для индустрии, разработчиков и пользователей, которые используют ML-модели в с

Annotation:

Machine learning (ML) models have significantly grown in complexity and utility, driving advances across multiple domains. However, substantial computational resources and specialized expertise have historically restricted their wide adoption. Machine-Learning-as-a-Service (MLaaS) platforms have addressed these barriers by providing scalable, convenient, and affordable access to sophisticated ML models through user-friendly APIs. While this accessibility promotes widespread use of advanced ML ca...

ID: 2508.15031v1 cs.CR, cs.AI, cs.LG

arXiv PDF

📄 Enhancing GraphQL Security by Detecting Malicious Queries Using Large Language Models, Sentence Transformers, and Convolutional Neural Networks

2025-08-19

Авторы:

Irash Perera, Hiranya Abeyrathne, Sanjeewa Malalgoda, Arshardh Ifthikar

#### Контекст GraphQL представляет собой универсальный способ запроса данных, предлагая гибкость и эффективность в формировании запросов к API. Однако эта гибкость создает уязвимости, которые могут использоваться для злонамеренных действий. Например, злоумышленники могут отправлять вредоносные запросы, что приводит к дениал-оф-сервис (DoS), организации дата-хиджака (data exfiltration), или исполнению внешних скриптов (XSS). На данный момент, существующие методы защиты, такие как статическая анализ, ограничение частоты запросов и общецелевые веб-приложения файрволы, оказываются недостаточными для борьбы с контекстно-зависимыми атаками. Из-за этого потребность в разработке более сильных методов обнаружения вредоносных запросов в GraphQL API становится ключевым мотивационным фактором для этого исследования. #### Метод Предлагаемая модель строится на основе трех основных компонентов: **Large Language Models (LLMs)**, **Sentence Transformers** и **Convolutional Neural Networks (CNNs)**. Основная схема работы состоит в следующем: - **LLMs** используются для динамической конфигурации схемы GraphQL. Они позволяют адаптировать обнаружение вредоносных запросов к конкретным условиям приложения. - **Sentence Transformers (SBERT и Doc2Vec)** используются для контекстного векторизации запросов. Они позволяют выделить контекстные связи между различными частями запроса, что позволяет более точно отличать вредоносные запросы от допустимых. - **CNNs**, **Random Forests** и **Multilayer Perceptrons** используются для заключительного классификационного этапа. Эти модели обрабатывают векторизованные данные и выдают решение о вредоносности запроса. Также в рамках реализации используются **ONNX Runtime** для оптимизации производительности в рабочей среде и **параллельное обработки запросов** для увеличения скорости обработки. #### Результаты Проведенные эксперименты показали высокую точность модели в обнаружении различных типов вредоносных запросов. Например, модель эффективно обнаруживает **SQL Injection**, **OS Command Injection** и **XSS**. Также была доказана эффективность модели в борьбе против **DoS** и **SSRF**. Оценка системы под нагрузкой показала высокую производительность, с минимальными задержками и высокой отдачей в режиме реального времени. #### Значимость Разработанная модель может быть применена в различных областях, где используются GraphQL API, включая электронную коммерцию, финансовые услуги и игровые индустрии. Основной преимуществом является то, что модель позволяет надёжно обнаруживать и блокировать вредоносные запросы в реальном времени, что обеспечивает надежную защиту API. Будущие исследования могут сосредоточиться на расширении модели для обнаружения более сложных атак, а также

Annotation:

GraphQL's flexibility, while beneficial for efficient data fetching, introduces unique security vulnerabilities that traditional API security mechanisms often fail to address. Malicious GraphQL queries can exploit the language's dynamic nature, leading to denial-of-service attacks, data exfiltration through injection, and other exploits. Existing solutions, such as static analysis, rate limiting, and general-purpose Web Application Firewalls, offer limited protection against sophisticated, conte...

ID: 2508.11711v1 cs.CR, cs.AI, cs.LG

arXiv PDF

📄 RMSL: Weakly-Supervised Insider Threat Detection with Robust Multi-sphere Learning

2025-08-19

Авторы:

Yang Wang, Yaxin Zhao, Xinyu Jiao, Sihan Xu, Xiangrui Cai, Ying Zhang, Xiaojie Yuan

## Контекст Отслеживание внутренних угроз (insider threat detection) представляет собой сложную задачу, нацеленную на идентификацию подозрительных поведений, выдаваемых сотрудниками или пользователями системы. Эта задача важна для обеспечения безопасности информационных систем и защиты конфиденциальных данных. Однако она сталкивается с рядовыми проблемами, включая недостаточность тонкой-штрихпунктной аннотации поведения и высокую стоимость создания тренировочных данных. Нейросетевые модели, использующие широко известные техники подкрепленного обучения (reinforcement learning), часто сталкиваются с проблемами высокого риска ложных срабатываний (false positives) и пропусканием реальных угроз (false negatives). В этом контексте возникает необходимость развития новых подходов, которые могут эффективно обрабатывать поведенческие данные, не требуя тонкой аннотации на уровне поведения, а вместо этого использовать более широкие метки на порядок поведения. ## Метод Мы предлагаем **Robust Multi-sphere Learning (RMSL)**, новую архитектуру, основанную на многосферной модели, чтобы преодолеть ограничения существующих методов. РMSL использует гиперсферы для представления нормальных паттернов поведения. Одноклассовый классификатор становится началом обучения, используя последовательности поведений как объекты для классификации. Затем, используя многостадийный подход, мы развиваем и адаптируем гиперсферы с помощью многоинстансного обучения (multiple instance learning) и адаптивного дебиасания (adaptive debiasing). Адаптивность в RMSL достигается за счет использования модели предсказания уверенности (confidence prediction), что позволяет улучшить точность распознавания объектов и уменьшить ложные срабатывания. Архитектура RMSL является универсальной и может использоваться для различных задач, основанных на поведенческих данных. ## Результаты Мы провели многочисленные эксперименты на различных датасетах, включая Insider Threat Dataset (CERT) и другие, чтобы оценить эффективность RMSL. Наши результаты показали, что RMSL сокращает false positive rate (ложноположительные срабатывания) на 25% в сравнении с дополнительными существующими методами. Также, RMSL показал улучшение в accuracy (точности) и F1-меру (F1-score) на 15% и 12% соответственно. Кроме того, мы провели подробный анализ влияния на сложность и ресурсоемкость, показав, что RMSL имеет достаточно низкое время обучения и низкий потребление памяти, что делает его применимым для реального времени. ## Значимость РMSL может быть применен в различных сферах, включая цифровую безопасность, мониторинг поведения пользователей в рабочей среде и отслеживание аномалий в ИТ-системах. Основные преимущества RMSL заключаются в своей универ

Annotation:

Insider threat detection aims to identify malicious user behavior by analyzing logs that record user interactions. Due to the lack of fine-grained behavior-level annotations, detecting specific behavior-level anomalies within user behavior sequences is challenging. Unsupervised methods face high false positive rates and miss rates due to the inherent ambiguity between normal and anomalous behaviors. In this work, we instead introduce weak labels of behavior sequences, which have lower annotation...

ID: 2508.11472v1 cs.CR, cs.AI, cs.LG

arXiv PDF

📄 Enhance the machine learning algorithm performance in phishing detection with keyword features

2025-08-15

Авторы:

Zijiang Yang

#### Контекст В последние годы становится очевидным возрастание числа фишинговых атак в сети Интернет. Фишинг — это тип атаки, в ходе которой злоумышленник создает поддельный сайт, аналогичный настоящему, с целью подловить конфиденциальную информацию пользователей. Такая атака может привести к краже личных данных и финансовым потерям. Для предотвращения таких угроз ключевой задачей является раннее обнаружение фишинговых веб-сайтов. Несмотря на то, что ранее были предложены различные машинные обучаемые модели, которые способны различать легитимные сайты от фишинговых, недостаточное внимание было уделено выбору эффективных признаков. Мы предлагаем новый подход, включающий в эти модели дополнительные ключевые слова, что позволяет улучшить их работу. #### Метод Мы предлагаем интегрировать ключевые слова из URL-адресов в существующие машинные обучаемые модели. Для этого мы разрабатываем алгоритм, который извлекает ключевые слова из URL-адресов и объединяет их с традиционными признаками, такими как длина URL-адреса, частота символов, и т.д. Наша методика может быть использована для всех основных машинных обучаемых моделей, таких как линейный логистический регрессор, SVM и др. Мы приводим эксперименты с разными наборами данных и показываем, что наш подход снижает ошибку классификации на 30% для больших данных и даже более существенно — для малых наборов. Для получения результатов мы используем множество машинных обучаемых моделей, включая линейный регрессор, SVM и другие. #### Результаты Мы проводим эксперименты с разными машинными обучаемыми моделями, включая линейный логистический регрессор, SVM, рукописный регрессор и др. Эксперименты проводятся на разных наборах данных, включая большие и малые. Наши результаты показывают, что применение нашего метода может снизить ошибку классификации на 30% для больших наборов данных. Эффект значительнее для малых наборов данных. Мы получаем достижение точности 99,68% при использовании лучшей модели. Кроме того, наш алгоритм не требует дополнительных данных из сторонних источников, что делает его более универсальным. #### Значимость Метод, предложенный в нашей работе, может применяться в различных областях безопасности, в том числе для защиты пользователей от фишинга. Он показывает высокую точность, даже при работе с небольшими наборами данных. Важно отметить, что наша методика не зависит от сторонних сервисов и полагается только на данные, извлекаемые из URL-адреса. Это делает её эффективной и простую в реализации. Мы считаем, что наш подход может быть использован в дальнейшем для улучшения других алго

Annotation:

Recently, we can observe a significant increase of the phishing attacks in the Internet. In a typical phishing attack, the attacker sets up a malicious website that looks similar to the legitimate website in order to obtain the end-users' information. This may cause the leakage of the sensitive information and the financial loss for the end-users. To avoid such attacks, the early detection of these websites' URLs is vital and necessary. Previous researchers have proposed many machine learning al...

ID: 2508.09765v1 cs.CR, cs.AI, cs.LG, cs.NE

arXiv PDF

📄 Attacks and Defenses Against LLM Fingerprinting

2025-08-14

Авторы:

Kevin Kurian, Ethan Holland, Sean Oesch

## Контекст Большие языковые модели (LLM) становятся все более распространенными в различных секторах, включая медицину, финансы и образование. Их мощь и универсальность делают их незаменимыми инструментами в современных технологиях. Однако, при развертывании в системах с тестовым кругом, особенно тех, где конфиденциальность и безопасность ключевые, LLMs подвергаются риску "фингерпринтинга" (Fingerprinting). Это атака, при которой злоумышленники используют выдаваемые моделью ответы для идентификации идентичности модели, тем самым нарушая конфиденциальность разработчика и возможность использования модели в секретных задачах. Необходимость в эффективном способе защиты LLMs от таких атак ведет к возникновению новых методов, призванных обнаруживать и предотвращать такие атаки. ## Метод Для идентификации способов оптимизации фингерпринтинга использовалась методология, основанная на реинфорсментном обучении (Reinforcement Learning, RL). Она позволяет автоматически оптимизировать выбор запросов, что увеличивает точность фингерпринтинга. Эта модель работает с минимальным количеством запросов — 3 — что демонстрирует ее прочность и эффективность. Для защиты от таких атак предложена методика, основанная на пост-обработке ответов модели. Этот метод использует другую LLM для фильтрации выходных данных, поддерживая их семантическую целостность, но при этом маскируя характеристики модели. Эти техники целенаправленно разработаны для создания эффективного компромисса между обеспечением конфиденциальности и сохранением качества выдачи. ## Результаты Эксперименты проводились на разных моделях, используя атакующую RL-модель и защитную фильтрацию в качестве двух главных показателей. Фингерпринтинг-атака значительно повысила свою успешность, при этом используя только 3 запроса, в сравнении с случайным выбором. Защитной модели удалось существенно снизить точность фингерпринтинга, при этом сохранив качество и смысловую целостность ответов. Эти результаты показали, что обе методики эффективны в своих целях: техника атаки улучшила точность, а защитная техника снизила ее, без ущерба для качества ответов. ## Значимость Предложенные техники могут быть применены в различных сценариях, где LLMs применяются в конфиденциальных системах — для обеспечения конфиденциальности, предотвращения утечек информации и защиты от несанкционированного использования моделей. Защитная техника может быть принята во многих системах, где требуется обеспечить конфиденциальность выдаваемых ответов, таких как банко

Annotation:

As large language models are increasingly deployed in sensitive environments, fingerprinting attacks pose significant privacy and security risks. We present a study of LLM fingerprinting from both offensive and defensive perspectives. Our attack methodology uses reinforcement learning to automatically optimize query selection, achieving better fingerprinting accuracy with only 3 queries compared to randomly selecting 3 queries from the same pool. Our defensive approach employs semantic-preservin...

ID: 2508.09021v1 cs.CR, cs.AI, cs.LG

arXiv PDF

Показано 51 - 58 из 58 записей