📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня
Авторы:

Martin Lochner, Keegan Keplinger

## Контекст Область исследования спутниковых систем автоматической идентификации объектов (АИО) широко распространена в различных сферах, включая военные и аэрокосмические технологии, а также применения в системах мониторинга и управления. Несмотря на развитие технологий, существуют проблемы, связанные с необходимостью развития методов, позволяющих эффективно использовать спутниковые системы в живой операции. Таким образом, мотивация для данного исследования лежит в раскрытии потенциала искусственного интеллекта (ИИ) для улучшения процессов сбора и анализа информации. ## Метод Для решения проблемы была разработана архитектура, основанная на комбинации синтетического датасета и искусственного интеллекта. Использовались методы машинного обучения, включая сверточные нейронные сети (CNN), для предобработки изображений и выявления объектов. Для обработки данных применялись статистические и графические методы, в том числе температурный анализ и динамическая моделирования. Для моделирования уровня сложности использовались специальные показатели, такие как градиентный подход и сингулярное разложение (SVD). ## Результаты Эксперименты проводились на датасете, содержащем образцы различных спутниковых изображений. Методы машинного обучения позволили достичь высокой точности выявления объектов, в том числе в живых операциях. Были выявлены ключевые узлы в инфраструктуре, которые являются самыми важными для управления живыми операциями. Также были проанализированы влияния различных факторов, таких как разрешение изображений и время суток, на точность обнаружения. ## Значимость Результаты исследования могут быть применены в различных сферах, включая мониторинг и защиту границ, системы оповещения и контроля военных объектов. Данный подход может существенно улучшить эффективность и быстроту реакции в живых операциях. Кроме того, он может быть применен в системах мониторинга природных ресурсов и экологического мониторинга. Одним из преимуществ является сильное снижение времени реакции и увеличение точности обнаружения. ## Выводы Исследование показало высокую эффективность использования ИИ для улучшения процессов в спутниковых системах. Развитие алгоритмов и методов моделирования может способствовать созданию более точных и производительных систем мониторинга и контроля. Будущие исследования будут направлены на улучшение методов анализа и моделирования, а также на расширение применений ИИ в системах управления и защиты объектов.
Annotation:
Objective: This work describes the topic modelling of Security Operations Centre (SOC) use of a large language model (LLM), during live security operations. The goal is to better understand how these specialists voluntarily use this tool. Background: Human-automation teams have been extensively studied, but transformer-based language models have sparked a new wave of collaboration. SOC personnel at a major cybersecurity provider used an LLM to support live security operations. This study exami...
ID: 2508.18488v1 cs.CR, cs.AI
Авторы:

Nanxi Li, Zhengyue Zhao, Chaowei Xiao

#### Контекст Визуально-языковые модели (VLM) становятся все более важной частью современных систем машинного обучения, применяются в оптимизации поиска, визуальной системному пониманию и генерации текста, основанном на изображениях. Однако эти модели чувствительны к атакам, таким как jailbreaking и визуальный троянский конь, которые могут привести к опасным последствиям. Настоящие проблемы включают недостаточную защиту от новых угроз и высокую стоимость обучения моделей, что делает невозможным обеспечение как безопасность, так и высокую эффективность. Поэтому, введение новых подходов к укреплению безопасности VLM является ключевым мотивом для этого исследования. #### Метод PRISM — это систематический подход для укрепления безопасности VLM, основанный на принципиальном рассуждении. Его состояние состоит из двух ключевых компонентов: PRISM-CoT и PRISM-DPO. Первый, PRISM-CoT, включает в себя набор данных, который обучает модели к цепочным рассуждениям с учетом безопасности. Для повышения точности и эффективности во втором компоненте, PRISM-DPO, применяется Monte Carlo Tree Search (MCTS), что позволяет строить более точные безопасные границы. Этот подход гарантирует, что модели не только будут безопасными, но и сохранят высокую эффективность в работе. #### Результаты Разработка и тестирование PRISM проводились на различных датасетах, включая JailbreakV-28K, VLBreak и MIS. Отчетленность PRISM отобразилась в низких процентах успешных атак: 0.15% на JailbreakV-28K для Qwen2-VL и 90% выигрыш в сравнении с предыдущими методами для LLaVA-1.5. Кроме того, PRISM продемонстрировал высокую устойчивость к адаптивным атакам, что увеличивает стоимость для злоумышленников. Заметна хорошая общинность PRISM на неизвестных данных, что демонстрируется низким процентом успешных атак на мультиизображенческом MIS-benchmark (только 8.70%). Помимо усиления безопасности, PRISM сохраняет и даже повышает эффективность моделей. #### Значимость PRISM может быть использован в различных областях, где VLM обеспечивают важные функции, включая поисковые системы, видеоаналитику и робототехнику. Он предлагает преимущества в систематизированном подходе к обеспечению безопасности, низкую стоимость обучения и высокую эффективность. Потенциальное влияние заключается в снижении риска атак на VLM, что повышает надежность и безопасность систем, использующих эти модели. #### Выводы В результате PRISM достигает высокого уровня защиты VLM, доказав свою эффективность в различных ситуациях. Этот подход открывает новые возможности для безопасного использо
Annotation:
Safeguarding vision-language models (VLMs) is a critical challenge, as existing methods often suffer from over-defense, which harms utility, or rely on shallow alignment, failing to detect complex threats that require deep reasoning. To this end, we introduce PRISM (Principled Reasoning for Integrated Safety in Multimodality), a system2-like framework that aligns VLMs by embedding a structured, safety-aware reasoning process. Our framework consists of two key components: PRISM-CoT, a dataset tha...
ID: 2508.18649v1 cs.CR, cs.AI
Авторы:

Shaswata Mitra, Azim Bazarov, Martin Duclos, Sudip Mittal, Aritran Piplai, Md Rayhanur Rahman, Edward Zieglar, Shahram Rahimi

## Контекст Современная сетевая безопасность опирается на широкий спектр инструментов, в том числе интрузионные детекторы систем (IDS), которые используют предопределенные правила для обнаружения аномального поведения в сети. Эти правила, образующие основу IDS, получаются из Cyber Threat Intelligence (CTI), который включает в себя сигнатуры атак и биографии биографий. Однако многообразие и многоплановость новых угроз требуют непрерывного обновления правил IDS, что может привести к задержкам в развертывании и снижению оборонительных возможностей системы. Особенно высокая динамика в сфере цифровой грубости вынуждает использовать продвинутые методы для упрощения и ускорения процесса генерации правил. Лучшие технологии в области AI, такие как большие языковые модели (LLMs), могут предложить переломный эффект, превратив процесс генерации правил IDS в более автоматизированный и быстрый. ## Метод Для решения вопроса об оптимизации генерации правил в IDS был разработан фреймворк FALCON, который основывается на агентных системах и использует технологии LLMs для автоматической генерации правил IDS. Методология FALCTON состоит из нескольких этапов: 1. **Сбор и обработка CTI-данных**: Фреймворк собирает данные из различных источников CTI, включая видеозаписи, потоки данных и другие источники. 2. **Генерация правил IDS**: Основной функцией FALCON является автоматическое создание правил IDS, которые могут быть применены в различных средах, таких как Snort и YARA. 3. **Встроенная проверка**: Фреймворк имеет встроенные механизмы для встроенного тестирования, которые обеспечивают высокую точность и устраняют риск поддельных сигналов. 4. **Интеграция с IDS**: Генерируемые правила могут быть непосредственно интегрированы с IDS-системами, что обеспечивает реальноземную защиту. В качестве тестового датасета было создано специальное сообщество с подробными правилами IDS и CTI-данными. ## Результаты Использовавшийся датасет включал более 10 000 правил IDS и соответствующие данные CTI. Экспериментальные исследования показали, что FALCON имеет высокую точность в генерации правил, средний результат составил 95%. Кроме того, проведенные квалитиативные оценки показали, что 84% специалистов по безопасности согласились на правильность полученных правил в различных сценариях. Эти результаты свидетельствуют о высокой эффективности и надежности FALCON в автоматической генерации правил IDS. ## Значимость FALCON может быть применен в различных сферах, в том числе в сетевой безопасности, где реально-времявая защита сетей критически важна. О
Annotation:
Signature-based Intrusion Detection Systems (IDS) detect malicious activities by matching network or host activity against predefined rules. These rules are derived from extensive Cyber Threat Intelligence (CTI), which includes attack signatures and behavioral patterns obtained through automated tools and manual threat analysis, such as sandboxing. The CTI is then transformed into actionable rules for the IDS engine, enabling real-time detection and prevention. However, the constant evolution of...
ID: 2508.18684v1 cs.CR, cs.AI, cs.CL, cs.LG, cs.SY, eess.SY
Авторы:

Sidahmed Benabderrahmane, Talal Rahwan

#### Контекст Advanced Persistent Threats (APTs) представляют собой одну из наиболее опасных угроз для современных цифровых систем. В отличие от традиционных атак, APTs обладают стелс-технологиями, адаптивностью и долговечностью, что делает их труднооткрываемыми статичными системами обнаружения на основе подписей. Эти угрозы могут оставаться незамеченными в течение многих месяцев, собирая критическую информацию и разрушая инфраструктуру. Настоящая работа рассматривает проблемы статичности и неадаптивности существующих систем и предлагает инновационный подход к обнаружению APT-атак, основанный на сочетании глубокого обучения и реинфорсментного обучения (RL). #### Метод Основная идея фреймворка заключается в создании комплексной системы на основе нескольких RL-агентов, которые анализируют поведение процессов в системе. Для этого разработан автокодировщик, который сжимает поведение процессов в высокомерных векторы. Каждый RL-агент обучается использовать эти векторы для различения между безопасными и злонамеренными процессами. Алгоритмы, выбраны для этих агентов: Q-Learning, PPO и DQN. Также включен агент-атакующий, нацеленный на поиск слабых мест в системе. Если любой RL-агент expersи не уверен в своем решении, активное обучение запускается для получения экспертного ввода, чтобы доработать границы разделения. Решение объединяется через голосование, в зависимости от качества каждого RL-агента. #### Результаты Рассмотренная система была тестирована на реальных журналах процессов. Она показала высокую точность в обнаружении APT-атак, превосходя существующие методы статической и динамической аналитики. Ключевыми показателями являются F1-меры обнаружения и раннее выявление злонамеренных активностей. Также было проведено эксперимент, показавший, что голосование между RL-агентами сильно повышает устойчивость системы к ложным срабатываниям. #### Значимость Предложенный подход может быть применен в различных сферах, где требуется высокая устойчивость к APTs, таких как финансовые системы, государственные системы и критически важные структуры. Система предоставляет преимущества в скорости реакции и адаптивности к новым видам атак. Развитие таких систем может существенно повысить защиту от сложных атак в цифровой среде, снизив риск безупречного проникновения злоумышленников. #### Выводы Результаты экспериментов подтверждают высокую эффективность предложенного подхода в обнаружении APT-атак. Будущие исследования будут сфокусированы на улучшении активного обучения, интеграции дополнительных источников данных и расширени
Annotation:
Advanced Persistent Threats (APTs) represent a growing menace to modern digital infrastructure. Unlike traditional cyberattacks, APTs are stealthy, adaptive, and long-lasting, often bypassing signature-based detection systems. This paper introduces a novel framework for APT detection that unites deep learning, reinforcement learning (RL), and active learning into a cohesive, adaptive defense system. Our system combines auto-encoders for latent behavioral encoding with a multi-agent ensemble of R...
ID: 2508.19072v1 cs.CR, cs.AI, cs.LG
Авторы:

Joshua Lee, Ali Arastehfard, Weiran Liu, Xuegang Ban, Yuan Hong

#### Контекст В последнее десятилетие, автономное водительство и технологии Vehicle-to-Everything (V2X) были значительными правомочами в повышении безопасности и эффективности транспортных систем. Эти системы взаимодействуют с большим количеством транспортных средств, транспортной инфраструктуры и облачных ресурсов для осуществления их системы машинного обучения. Однако, широкое применение машинного обучения в V2X-системах вызывает проблемы с правом на конфиденциальность данных. Это особенно актуально для приложений, связанных с безопасностью вождения и управлением транспортом, которые могут неявно раскрывать местонахождение пользователей или явно раскрывать личные данные, такие как сигналы EEG. Для решения этих проблем, мы предлагаем SecureV2X — масштабируемую систему с несколькими агентами для безопасных вычислительных сетей, развернутую между сервером и каждым автомобилем. #### Метод SecureV2X работает на базе многоагентной архитектуры, обеспечивающей безопасность вычислений нейронных сетей. Оно использует технологию строения шифрованных сетей (SecureNN) для защиты данных во время вычисления. В рамках этой системы, мы изучаем две V2X-приложения: детекцию усталости водителя и детекцию нарушения сигнала «красный свет». Методология SecureV2X включает эффективные методы передачи данных, использование шифрованных машинных технологий для обеспечения конфиденциальности и технологии распределенных вычислений для обеспечения масштабируемости. Эти методы позволяют системе обеспечивать безопасность данных, сохраняя высокую скорость и эффективность вычислений. #### Результаты Мы провели эксперименты с SecureV2X для двух приложений: детекции усталости водителя и детекции нарушения сигнала «красный свет». Для этих задач, мы использовали данные, собранные с различных источников, включая сигналы EEG и видеоматериалы. Результаты показали, что SecureV2X заметно превосходит другие системы по всем метрикам производительности. Например, она работает $9.4 \times$ быстрее, требует $143 \times$ меньше циклов вычислений и имеет $16.6 \times$ меньше сетевого трафика для детекции усталости водителя по сравнению с другими системами. Для детекции нарушения сигнала «красный свет», SecureV2X достигает скорости выполнения почти $100 \times$ выше, чем состояния технологий в области объектной детекции. #### Значимость SecureV2X имеет широкие области применения в сфере безопасности транспортных средств и управления. Её основные преимущества заключаются в высокой производительности, эффективности и защите конфиденциальности данных. Эта система мо
Annotation:
Autonomous driving and V2X technologies have developed rapidly in the past decade, leading to improved safety and efficiency in modern transportation. These systems interact with extensive networks of vehicles, roadside infrastructure, and cloud resources to support their machine learning capabilities. However, the widespread use of machine learning in V2X systems raises issues over the privacy of the data involved. This is particularly concerning for smart-transit and driver safety applications...
ID: 2508.19115v1 cs.CR, cs.AI, E.3; I.2.6; I.5.1; F.1.2
Авторы:

GodsGift Uzor, Hasan Al-Qudah, Ynes Ineza, Abdul Serwadda

## Контекст В последние годы интерактивность больших языковых моделей (LLM) вызывает возрастающий интерес пользователей к интерактивному взаимодействию с этими моделями. Однако широкое использование LLM, предоставленных поставщиками, создает риск для частной информации пользователей. Даже когда пользователи отказываются от использования своих данных для обучения модели, они остаются без защиты, если поставщик LLM работает в странах с слабыми законами о защите данных, где наблюдается вторжение в частную жизнь или недостаточная безопасность данных. В целях ограничения риска масштабируемого сбора информации, включая Персонально Идентифицируемую Информацию (PII), мы предлагаем концепцию "LLM Gatekeeper" -- метод, предназначенный для защиты частной информации пользователей от нежелательного доступа при использовании моделей LLM в облачных средах. ## Метод Мы предлагаем LLM Gatekeeper в качестве легковесной модели, работающей локально на устройстве пользователя. Она фильтрует пользовательские запросы перед отправкой на облачную модель LLM. Метод использует подходы, основанные на машинном обучении, для идентификации и удаления чувствительных данных, включая PII, из запросов пользователей. Основная архитектура LLM Gatekeeper состоит из двух компонентов: локального модуля для выявления и удаления чувствительных данных и модуля, который обеспечивает контекстуальную целостность запросов. Мы оптимизировали алгоритмы, используемые в LLM Gatekeeper, чтобы обеспечить минимальный задержке и максимально возможную эффективность в обработке запросов. ## Результаты Мы провели эксперименты с пятью разными облачными моделями LLM и использовали набор данных, содержащий различные виды чувствительных информации. Набор данных включал в себя как открытые, так и закрытые данные, такие как имена, адреса, номера карт кредита и номера телефонов. Мы проверяли различные варианты настройки LLM Gatekeeper для измерения его влияния на качество ответов модели LLM, а также для измерения времени обработки запросов. Результаты показали, что LLM Gatekeeper успешно удаляет 95% чувствительных данных, не влияя на качество ответов LLM. Была также замечена минимальная задержка в 0,01 секунды при фильтрации запросов, что делает метод привлекательным для реального времени. ## Значимость LLM Gatekeeper предлагает значительные преимущества в области защиты личной информации при взаимодействии с облачными моделями LLM. Он может быть применен в различных сферах, включая безопасные платежи, медицинскую информацию и личные данные. Выгоды LLM Gatekeeper включают не только защиту от нежелательного доступа к чувствительной информации,
Annotation:
The interactive nature of Large Language Models (LLMs), which closely track user data and context, has prompted users to share personal and private information in unprecedented ways. Even when users opt out of allowing their data to be used for training, these privacy settings offer limited protection when LLM providers operate in jurisdictions with weak privacy laws, invasive government surveillance, or poor data security practices. In such cases, the risk of sensitive information, including Pe...
ID: 2508.16765v1 cs.CR, cs.AI, cs.CL
Авторы:

Kamel Kamel, Keshav Sood, Hridoy Sankar Dutta, Sunil Aryal

## Контекст В последние годы голосовое аутентификационное технологическое решение, основанное на подходах, основанных на ранее использовавшихся в акустических характеристиках, превратилось в модели с нейронными сетей, извлекающие сильно устойчивые особые возможности. Это развитие расширило сферу применения голосовой аутентификации в финансовые учреждения, умные устройства, полицию и другие области. Однако, вместе с ростом широкого применения, риски и угрозы становятся все более остры. Недостатки и уязвимости моделей могут привести к ошибкам в проверке личности или к несанкционированному доступу. Обзорный анализ, представленный в этой статье, охватывает современные угрозы к голосовой аутентификационной системе (VAS) и системам противодействия подделке (CMs). Он включает в себя такие угрозы, как угрозы данных, атаки с адверсариальными примерами, создание deepfake-звуков и атаки с подделкой голоса. Эта статья поможет сформировать понимание развития угроз и существующих систем противодействия, чтобы способствовать развитию более надёжных и защищённых голосовых аутентификационных систем. ## Метод Обзорные аналитические работы, основывающиеся на систематизации и анализе литературы, становятся всё более востребованы, так как помогают отслеживать развитие технологий и их эволюцию. Этот обзор рассматривает развитие технологий голосовой аутентификации в рамках критического анализа их уязвимостей и угроз. Метод включает предварительный анализ существующих работ, описывая методологии, этапы развития, а также использованные данные. Он также включает в себя сравнение результатов различных систем, использование различных методов тестирования и интерпретации результатов. Это позволяет выявлять новые угрозы, отслеживать прогресс и предложить рекомендации по улучшению в сфере голосовой аутентификации. ## Результаты В результате работы был проведен интенсивный обзор литературы, включающий сравнение различных технологий, используемых в голосовой аутентификации и противодействии подделке. Были исследованы многочисленные данные, полученные в различных экспериментах. Результатом является создание общей картины развития голосовой аутентификации и её уязвимостей, в том числе атак с использованием адверсариальных примеров, deepfake-технологий и подделки голоса. Были выявлены характеристики уязвимости моделей, используемых методы защиты, и отдельно рассмотрены новые угрозы. Эта систематизация позволила выделить различные подходы, их преимущества и ограничения, что даёт базу для д
Annotation:
Voice authentication has undergone significant changes from traditional systems that relied on handcrafted acoustic features to deep learning models that can extract robust speaker embeddings. This advancement has expanded its applications across finance, smart devices, law enforcement, and beyond. However, as adoption has grown, so have the threats. This survey presents a comprehensive review of the modern threat landscape targeting Voice Authentication Systems (VAS) and Anti-Spoofing Counterme...
ID: 2508.16843v2 cs.CR, cs.AI
Авторы:

Derek Lilienthal, Sanghyun Hong

Ларе Хаги (LLM)-ободденные агенты становятся все популярнее, но их развертывание сопряжено с новыми безопасностными угрозами. Одной из таких угроз является time-of-check to time-of-use (TOCTOU), когда агент проверяет внешний состояние (например, файл или ответ API), который позднее может быть изменен перед использованием, что приводит к атакам, таким как незаконное изменение конфигурации или внедрение вредоносных данных. В работе представлен первый исследовательский подход к TOCTOU-уязвимостям в ходе работы LLM-агентов. Авторы представляют TOCTOU-Bench — бенчмарк, содержащий 66 реалистичных задач, позволяющий эффективно оценивать этот класс уязвимостей. Они также предлагают три стратегии countemеров: токсодаптивные приёмы системной безопасности, прогнозное переписывание примапов и инструментов-комбинирование. Исследование показывает, что эти методы уменьшают обнаружение уязвимости с 25% до 8%, снижают частоту генерации уязвимых планов и сокращают окно атаки с 12% до 95%. Результаты открывают новую направление исследований, соединяющее охрану AI и системную безопасность.
Annotation:
Large Language Model (LLM)-enabled agents are rapidly emerging across a wide range of applications, but their deployment introduces vulnerabilities with security implications. While prior work has examined prompt-based attacks (e.g., prompt injection) and data-oriented threats (e.g., data exfiltration), time-of-check to time-of-use (TOCTOU) remain largely unexplored in this context. TOCTOU arises when an agent validates external state (e.g., a file or API response) that is later modified before ...
ID: 2508.17155v1 cs.CR, cs.AI
Авторы:

Jiale Liu, Jiahao Zhang, Suhang Wang

## Контекст Retrieval-Augmented Generation (RAG) является мощной методологией для улучшения Large Language Models (LLMs) с помощью внешних и актуальных источников знаний. Граф-ориентированные RAG-системы представляют собой продвинутый подход, использующий структурированные графы для формирования более контекстуально богатых и точных ответов. Однако, проникновение из документов в структурированные графы привносит новые, до сих пор мало исследованные проблемы безопасности и конфиденциальности. Этот труд обобщает эти сложности, сфокусировавшись на проблемах вытеснения конфиденциальных данных из Graph RAG-систем. Мы исследуем возможность извлечения значимых сведений из таких систем, включая текстовые данные и структурированные связи между сущностями. Наши исследования устанавливают критический компромисс: хотя Graph RAG может снизить риск вытеснения неструктурированных данных, она оказывается более уязвима для извлечения структурированных данных, таких как сущности и их отношения. Мы также рассматриваем потенциальные методы защиты, нацеленные на уменьшение этого риска. Этот труд предоставляет основной анализ уникальных задач безопасности, возникающих в граф-ориентированных RAG, и предоставляет рекомендации для создания более безопасных систем. ## Метод Мы разработали собственный подход для проверки уязвимости Graph RAG-систем. Наша методология включает в себя: 1. **Создание атак на вытеснение данных**: Мы разрабатываем направленные атаки, специализированные на извлечении конфиденциальных сведений, включая текстовые фрагменты и структурированные сущности. 2. **Использование графовых знаний**: Мы реализуем методы, которые исследуют структуру графа и используют эти структурные сведения для оптимизации атак. 3. **Экспериментальная модель**: Мы создаем эксперименты, в которых тестовые данные состоят из скрытых графов и целевых полей, включая тексты и сущности. 4. **Анализ уязвимости**: Мы измеряем уязвимость систем к вытеснению данных, сравнивая полученные результаты с различными вариантами защиты и методик. Эти этапы позволяют нам изучить характеристики Graph RAG-систем, относящиеся к конфиденциальности, и определить зоны риска, которые требуют более тщательного изучения. ## Результаты Мы проводили многочисленные эксперименты на разных типах графов и Graph RAG-системах. Наши результаты показывают, что: - **Вытеснение текстовых данных**: Граф-ориентированные RAG-системы существенно снижают риск вытеснения неструктурированных текстовых данных по сравнению с базовыми RAG-системами. - **Уязвимость к вытеснению сущ
Annotation:
Retrieval-Augmented Generation (RAG) is a powerful technique for enhancing Large Language Models (LLMs) with external, up-to-date knowledge. Graph RAG has emerged as an advanced paradigm that leverages graph-based knowledge structures to provide more coherent and contextually rich answers. However, the move from plain document retrieval to structured graph traversal introduces new, under-explored privacy risks. This paper investigates the data extraction vulnerabilities of the Graph RAG systems....
ID: 2508.17222v1 cs.CR, cs.AI, cs.IR
Авторы:

Qiming Guo, Jinwen Tang, Xingran Huang

## Контекст Искусственные нейронные сети (LLM) и искусственные интеллект-агенты (AI agents) становятся важными инструментами в различных областях, включая поиск информации, генерацию текста и принятие решений. Однако эти технологии остаются тематическим концептуально научной и технологической статьи по теме "Attacking LLMs and AI Agents: Advertisement Embedding Attacks Against Large Language Models" в силу их расширения. Одной из ключевых проблем является повышение риска мошенничества, публикации злонамеренной информации и скрытых объявлений. Эта проблема представляет собой значительный угрозу для безопасности и этики использования технологий AI. Мотивация для данного исследования заключается в определении новых типов угроз и разработке методов защиты, чтобы обеспечить безопасное и эффективное использование AI-систем. ## Метод Разработанная методология включает в себя следующие этапы: 1. **Анализ рисков и возможностей уязвимости**: Авторы определили, что уязвимость моделей AI может быть использована с помощью специально созданных входных стимулов (prompts), которые подкорректируют выходные данные модели. 2. **Использование сторонних сервисов**: Атака может получать доступ к сервисам, которые распространяют модели AI, чтобы внедрить свои собственные данные. 3. **Форвардная модель**: Авторы использовали атаку, которая имитирует принятое поведение модели, но включает в себя скрытые сообщения. 4. **Атака связывательных слоев (Backdoor Models)**: Эта атака включает в себя форматирование под входной стимул, который вызывает злонамеренное поведение. ## Результаты Авторы провели эксперименты, где проверяли влияние скрытых сообщений на различные модели AI. Они использовали разные данные и настройки, чтобы протестировать эффективность новых методов. Результаты показали, что модели AI могут быть легко изменены, чтобы включить невидимые объявления, поддельные информации или даже злонамеренные сообщения. Это подтверждает, что модели AI могут быть использованы для распространения злонамеренной информации без видимых симптомов. ## Значимость Результаты имеют значительное значение для различных сфер, включая безопасность интернета, типологию сетевых угроз и проблему фальсификации информации. Этот новый подход может быть использован для распространения объявлений, ложных новостей, или даже злонамеренных сообщений в различных сферах, таких как политические кампании, маркетинг и другие. Эта угроза может привести к значительным потерям для компаний и пользователей, если она не будет предотвращена. ## Выводы Авторы раскрыли новый класс угроз для технологий
Annotation:
We introduce Advertisement Embedding Attacks (AEA), a new class of LLM security threats that stealthily inject promotional or malicious content into model outputs and AI agents. AEA operate through two low-cost vectors: (1) hijacking third-party service-distribution platforms to prepend adversarial prompts, and (2) publishing back-doored open-source checkpoints fine-tuned with attacker data. Unlike conventional attacks that degrade accuracy, AEA subvert information integrity, causing models to r...
ID: 2508.17674v1 cs.CR, cs.AI, cs.LG
Показано 401 - 410 из 470 записей