📊 Статистика дайджестов
Всего дайджестов: 34022 Добавлено сегодня: 82
Последнее обновление: сегодня
📄 A Systematic Approach to Predict the Impact of Cybersecurity Vulnerabilities Using LLMs
2025-08-28Авторы:
Anders Mølmen Høst, Pierre Lison, Leon Moonen
## Контекст
Обеспечение безопасности в цифровой среде становится все более важной задачей в условиях постоянно усиливающихся угроз силовым цифровым пространству. Одна из ключевых проблем в этой области — недостаток информации о реальном воздействии уязвимостей. Хотя базы данных, такие как National Vulnerability Database (NVD), предоставляют подробные описания уязвимостей, они часто не содержат информации о возможных вариантах их использования в атаках, таких как методы, техники и процедуры (TTP). Анализ такой информации требует значительных усилий и времени, что не позволяет реагировать на новые уязвимости в адекватные сроки. Использование автоматизированных методов для оценки воздействия уязвимостей может значительно улучшить эффективность и скорость анализа, что делает этот подход крайне значимым для систем безопасности.
## Метод
Авторы предлагают TRIAGE — методологию, основанную на использовании бо LLM (больших языковых моделей) для автоматического определения воздействия уязвимостей. Метод использует два этапа. В первом этапе LLM применяется для предсказания возможных TTP, используя инструкции на основе ATT&CK-базы знаний. Второй этап использует in-context learning для дополнительного определения TTP, используя контекстная информация из NVD. Этот гибридный подход объединяет rule-based методы и data-driven inference, что позволяет повысить точность и покрытие. Инструментарий TRIAGE может применяться для автоматического предсказания воздействия уязвимостей, основываясь на данных базы NVD.
## Результаты
Оценка результатов TRIAGE проводилась с использованием эталонных данных ATT&CK. Было проведено несколько экспериментов с различными моделями LLM, включая GPT-4o-mini и Llama3.3-70B. Результаты показали, что in-context learning выдает лучшие результаты по поиску возможных TTP, чем отдельно взятые rule-based и другие данные-дронные методы. Кроме того, TRIAGE улучшает покрытие и увеличивает чувствительность к редким вариантам использования уязвимостей. GPT-4o-mini показал более высокую точность по сравнению с Llama3.3-70B при использовании TRIAGE.
## Значимость
Данный подход может применяться в различных областях безопасности, включая анализ безопасности программного обеспечения, реагирование на инциденты, а также процессы разработки и тестирования. TRIAGE позволяет эффективно повышать эффективность и автоматизировать процессы, связанные с оценкой воздействия уязвимостей. Он может существенно снизить время и ресурсы, необходимые для анализа уязвимостей, и помочь в создании более эффективных стратегий защиты.
## Выводы
ТРИАЖ (TRIAGE) — это прорыв в автоматизации процессов оценки в
Annotation:
Vulnerability databases, such as the National Vulnerability Database (NVD),
offer detailed descriptions of Common Vulnerabilities and Exposures (CVEs), but
often lack information on their real-world impact, such as the tactics,
techniques, and procedures (TTPs) that adversaries may use to exploit the
vulnerability. However, manually linking CVEs to their corresponding TTPs is a
challenging and time-consuming task, and the high volume of new vulnerabilities
published annually makes automated supp...
Авторы:
Shaswata Mitra, Azim Bazarov, Martin Duclos, Sudip Mittal, Aritran Piplai, Md Rayhanur Rahman, Edward Zieglar, Shahram Rahimi
## Контекст
Современная сетевая безопасность опирается на широкий спектр инструментов, в том числе интрузионные детекторы систем (IDS), которые используют предопределенные правила для обнаружения аномального поведения в сети. Эти правила, образующие основу IDS, получаются из Cyber Threat Intelligence (CTI), который включает в себя сигнатуры атак и биографии биографий. Однако многообразие и многоплановость новых угроз требуют непрерывного обновления правил IDS, что может привести к задержкам в развертывании и снижению оборонительных возможностей системы. Особенно высокая динамика в сфере цифровой грубости вынуждает использовать продвинутые методы для упрощения и ускорения процесса генерации правил. Лучшие технологии в области AI, такие как большие языковые модели (LLMs), могут предложить переломный эффект, превратив процесс генерации правил IDS в более автоматизированный и быстрый.
## Метод
Для решения вопроса об оптимизации генерации правил в IDS был разработан фреймворк FALCON, который основывается на агентных системах и использует технологии LLMs для автоматической генерации правил IDS. Методология FALCTON состоит из нескольких этапов:
1. **Сбор и обработка CTI-данных**: Фреймворк собирает данные из различных источников CTI, включая видеозаписи, потоки данных и другие источники.
2. **Генерация правил IDS**: Основной функцией FALCON является автоматическое создание правил IDS, которые могут быть применены в различных средах, таких как Snort и YARA.
3. **Встроенная проверка**: Фреймворк имеет встроенные механизмы для встроенного тестирования, которые обеспечивают высокую точность и устраняют риск поддельных сигналов.
4. **Интеграция с IDS**: Генерируемые правила могут быть непосредственно интегрированы с IDS-системами, что обеспечивает реальноземную защиту.
В качестве тестового датасета было создано специальное сообщество с подробными правилами IDS и CTI-данными.
## Результаты
Использовавшийся датасет включал более 10 000 правил IDS и соответствующие данные CTI. Экспериментальные исследования показали, что FALCON имеет высокую точность в генерации правил, средний результат составил 95%. Кроме того, проведенные квалитиативные оценки показали, что 84% специалистов по безопасности согласились на правильность полученных правил в различных сценариях. Эти результаты свидетельствуют о высокой эффективности и надежности FALCON в автоматической генерации правил IDS.
## Значимость
FALCON может быть применен в различных сферах, в том числе в сетевой безопасности, где реально-времявая защита сетей критически важна. О
Annotation:
Signature-based Intrusion Detection Systems (IDS) detect malicious activities
by matching network or host activity against predefined rules. These rules are
derived from extensive Cyber Threat Intelligence (CTI), which includes attack
signatures and behavioral patterns obtained through automated tools and manual
threat analysis, such as sandboxing. The CTI is then transformed into
actionable rules for the IDS engine, enabling real-time detection and
prevention. However, the constant evolution of...
Авторы:
GodsGift Uzor, Hasan Al-Qudah, Ynes Ineza, Abdul Serwadda
## Контекст
В последние годы интерактивность больших языковых моделей (LLM) вызывает возрастающий интерес пользователей к интерактивному взаимодействию с этими моделями. Однако широкое использование LLM, предоставленных поставщиками, создает риск для частной информации пользователей. Даже когда пользователи отказываются от использования своих данных для обучения модели, они остаются без защиты, если поставщик LLM работает в странах с слабыми законами о защите данных, где наблюдается вторжение в частную жизнь или недостаточная безопасность данных. В целях ограничения риска масштабируемого сбора информации, включая Персонально Идентифицируемую Информацию (PII), мы предлагаем концепцию "LLM Gatekeeper" -- метод, предназначенный для защиты частной информации пользователей от нежелательного доступа при использовании моделей LLM в облачных средах.
## Метод
Мы предлагаем LLM Gatekeeper в качестве легковесной модели, работающей локально на устройстве пользователя. Она фильтрует пользовательские запросы перед отправкой на облачную модель LLM. Метод использует подходы, основанные на машинном обучении, для идентификации и удаления чувствительных данных, включая PII, из запросов пользователей. Основная архитектура LLM Gatekeeper состоит из двух компонентов: локального модуля для выявления и удаления чувствительных данных и модуля, который обеспечивает контекстуальную целостность запросов. Мы оптимизировали алгоритмы, используемые в LLM Gatekeeper, чтобы обеспечить минимальный задержке и максимально возможную эффективность в обработке запросов.
## Результаты
Мы провели эксперименты с пятью разными облачными моделями LLM и использовали набор данных, содержащий различные виды чувствительных информации. Набор данных включал в себя как открытые, так и закрытые данные, такие как имена, адреса, номера карт кредита и номера телефонов. Мы проверяли различные варианты настройки LLM Gatekeeper для измерения его влияния на качество ответов модели LLM, а также для измерения времени обработки запросов. Результаты показали, что LLM Gatekeeper успешно удаляет 95% чувствительных данных, не влияя на качество ответов LLM. Была также замечена минимальная задержка в 0,01 секунды при фильтрации запросов, что делает метод привлекательным для реального времени.
## Значимость
LLM Gatekeeper предлагает значительные преимущества в области защиты личной информации при взаимодействии с облачными моделями LLM. Он может быть применен в различных сферах, включая безопасные платежи, медицинскую информацию и личные данные. Выгоды LLM Gatekeeper включают не только защиту от нежелательного доступа к чувствительной информации,
Annotation:
The interactive nature of Large Language Models (LLMs), which closely track
user data and context, has prompted users to share personal and private
information in unprecedented ways. Even when users opt out of allowing their
data to be used for training, these privacy settings offer limited protection
when LLM providers operate in jurisdictions with weak privacy laws, invasive
government surveillance, or poor data security practices. In such cases, the
risk of sensitive information, including Pe...
Авторы:
Hengyu An, Jinghuai Zhang, Tianyu Du, Chunyi Zhou, Qingming Li, Tao Lin, Shouling Ji
Заголовок: IPIGuard: A Novel Tool Dependency Graph-Based Defense Against Indirect Prompt Injection in LLM Agents
## Контекст
Large language model (LLM) agents широко применяются в реальном мире, где они используют инструменты для получения и обработки внешних данных для выполнения сложных задач. Однако при работе с недоверенными источниками данных (например, сайтах в сети) ответы инструментов могут содержать внедренные инструкции, которые подтачивают поведение агента и приводят к вредоносным последствиям. Эта угроза называется Indirect Prompt Injection (IPI). Существующие методы защиты, такие как улучшенные стратегии подачи фраз или дополнительные модели детекции, основываются на предположениях о безопасности модели и не учитывают структурных ограничений на агентское поведение. Без таких ограничений агенты остаются подверженными более сильным атакам, которые могут обойти защитные механизмы. Чтобы защититься от внедренных инструкций на самом источнике, мы предлагаем новую защитную модель под названием IPIGuard.
## Метод
IPIGuard представляет собой защитную модель, которая представляет задачу выполнения агента в виде планирования динамического Tool Dependency Graph (TDG). Эта модель разделяет планирование действий от взаимодействия с внешними источниками данных. Каждый шаг выполнения представляет собой переход между узлами TDG, что позволяет контролировать и анализировать взаимодействие с инструментами на ранней стадии. Этот подход существенно сокращает нежелательные внешние вызовы, связанные с внедренными инструкциями, и улучшает устойчивость агентной системы к IPI-атакам. Наша архитектура гарантирует более структурированное поведение и значительно меньшую подверженность внешним угрозам.
## Результаты
Мы проверили эффективность IPIGuard на бенчмарке AgentDojo, где агенты должны решать задачи в динамических условиях. Наши результаты показали, что IPIGuard значительно снижает число нежелательных вызовов инструментов, вызванных внедренными инструкциями, при этом сохраняя высокую точность и быстрое выполнение задач. Эти результаты демонстрируют преимущество IPIGuard над существующими методами в терминах баланса между эффективностью и устойчивостью к атакам. Благодаря этому, IPIGuard может стать ключевым элементом в создании более надежных и безопасных агентских систем.
## Значимость
Предложенная модель имеет большое практическое значение в области применения LLM-агентов в реальном мире. Она может быть использована для защиты агентов от внедренных инструкций в различных сценариях, таких как системы поддержки клиентов, системы управления бизнес-процессами и системы рекомендаций. Благодаря структурированному подходу IPIGuard обеспечивает более
Annotation:
Large language model (LLM) agents are widely deployed in real-world
applications, where they leverage tools to retrieve and manipulate external
data for complex tasks. However, when interacting with untrusted data sources
(e.g., fetching information from public websites), tool responses may contain
injected instructions that covertly influence agent behaviors and lead to
malicious outcomes, a threat referred to as Indirect Prompt Injection (IPI).
Existing defenses typically rely on advanced prom...
Авторы:
Hael Abdulhakim Ali Humran, Ferdi Sonmez
#### Контекст
Коды программ, написанные на разных языках программирования, часто содержат серьезные уязвимости, которые трудно обнаружить с помощью статических анализаторов. Традиционные алгоритмы, основанные на правилах, некорректно обрабатывают контекстные зависимости и часто генерируют ложные срабатывания. В последние годы искусственный интеллект (AI), особенно преобразовательные модели типа CodeBERT и CodeLlama, показали способность лучше обнаруживать такие уязвимости. Наша исследовательская мотивация заключается в изучении потенциала этих моделей для детектирования уязвимостей в коде на разных языках. Наша цель — показать, как эти модели могут быть применены к разным классам уязвимостей и сравнить их эффективность с существующими анализаторами.
#### Метод
Мы применяем преобразовательные модели CodeBERT и CodeLlama для детектирования уязвимостей в коде. Наша методология включает следующие этапы:
1. **Сбор данных**: Объединение данных из разных источников, включая уязвимый и безопасный код, для обучения и проверки моделей.
2. **Нормализация языка**: Преобразование кода в формат, пригодный для обработки моделями AI.
3. **Динамическая тюнинг моделей**: Обучение моделей на конкретных классах уязвимостей, учитывая контекст.
4. **Использование ensemble learning**: Сочетание нескольких моделей для улучшения точности.
5. **Применение explainable AI**: Обеспечение прозрачности решений модели.
Эти шаги позволяют извлечь максимальную эффективность из моделей и сделать их более доступными для реального применения.
#### Результаты
Мы провели эксперименты на нескольких наборах данных, сравнивая результаты моделей CodeBERT и CodeLlama с существующими статическими анализаторами. В результатах показано, что CodeBERT может достигать точности выше 97% при детектировании уязвимостей. Однако, мы также выявили, что модель CodeLlama демонстрирует высокую полноту (recall), но значительно нижую точность (precision), что может привести к ложноположительным срабатываниям. Для решения этой проблемы мы использовали hybrid models и тщательные процедуры валидации. Эти меры позволили сократить ложноположительные срабатывания и улучшить общую надежность моделей.
#### Значимость
Наши результаты имеют широкое применение в области безопасности программного обеспечения. Автоматизированные системы детектирования уязвимостей могут существенно сократить время и ресурсы, потраченные на ручной анализ кода. Важное преимущество AI-моделей заключается в их гибкости и возможности обнаруживать уязвимости в разных языках программирования. Это означает уменьшение затрат на поддержку и адаптацию систем безопасности к новым языкам. Будущие иссле
Annotation:
Security vulnerabilities present in a code that has been written in diverse
programming languages are among the most critical yet complicated aspects of
source code to detect. Static analysis tools based on rule-based patterns
usually do not work well at detecting the context-dependent bugs and lead to
high false positive rates. Recent developments in artificial intelligence,
specifically the use of transformer-based models like CodeBERT and CodeLlama,
provide light to this problem, as they show...
📄 Where to Start Alignment? Diffusion Large Language Model May Demand a Distinct Position
2025-08-19Авторы:
Zhixin Xie, Xurui Song, Jun Luo
#### Контекст
Diffusion Large Language Models (dLLMs) представляют собой неоткрытый поток информации, отличающийся уникальным подходом к обучению и интерпретации. Однако пока что недостаточно изучена их безопасность, которая является ключевой задачей в их применении. Это создает мотивацию для разработки систем, обеспечивающих безопасность и эффективность в их работе, так как безопасное применение dLLMs в реальной среде обеспечивает доверие к их решениям и снижает риск нежелательных последствий.
#### Метод
Мы проводим тщательный анализ безопасности dLLMs, описывая критические особенности их генерирования. Методом глубокого анализа мы выявляем критические точки в процессе генерирования, помогающие сохранить безопасность выдаваемых ответов. Для обеспечения безопасности разрабатывается новая методика - Middle-tOken Safety Alignment (MOSA), которая направлена на прямое выравнивание структуры модели к безопасным отказам. Мы применяем к этому подходу методы реINFOнифорсментной машинной обучаемости, чтобы усилить эффективность.
#### Результаты
Мы проводим эксперименты с двумя наборами данных, представляющими собой базовые тесты на безопасность dLLMs. Метод MOSA показывает выдающиеся результаты, быстро и эффективно обеспечивая безопасность модели. Мы проводим сравнение с другими методами, показывая превосходство MOSA в рефузе безопасного генерирования. Также проводим эксперименты на тестировании универсальных знаний, таких как кодинг, математика и общие задачи реального мира. Результаты демонстрируют высокую эффективность и безопасность dLLMs с MOSA.
#### Значимость
Метод MOSA имеет множество потенциальных применений, включая технические решения, безопасность и создание безопасных моделей языковой модели. Он предлагает уникальное преимущество в своих свойствах, особенно в защите от внешних воздействий. Этот подход может сыграть важную роль в развитии безопасности и улучшении практических решений для охраны моделей данных.
#### Выводы
Разработанный подход MOSA открывает новые возможности для улучшения безопасности dLLMs и другого применения технологий моделирования языка. Мы планируем продолжить развитие этого подхода, ориентируясь на расширение его потенциала и применения в различных сферах. Эти найденные результаты станут основой для будущих исследований в области безопасности моделей языковых моделей.
Annotation:
Diffusion Large Language Models (dLLMs) have recently emerged as a
competitive non-autoregressive paradigm due to their unique training and
inference approach. However, there is currently a lack of safety study on this
novel architecture. In this paper, we present the first analysis of dLLMs'
safety performance and propose a novel safety alignment method tailored to
their unique generation characteristics. Specifically, we identify a critical
asymmetry between the defender and attacker in terms ...
Авторы:
Yanzhe Zhang, Diyi Yang
## Контекст
Современная Интернет-экономика сильно полагается на широковещательное развертывание генерирующих языковых моделей (LLM) в качестве агентов для обеспечения различных сервисов. Однако возникает критическая проблема: злоумышленники могут использовать LLM-агенты для проводить атаки, нацеленные на запрос и извлечение чувствительной информации в динамическом, многоразовом диалоге. Эти атаки могут привести к серьезным нарушениям конфиденциальности, но их сложная и эволюционная природа затрудняет ручной поиск этих уязвимостей. Для раскрытия этих возможностей и защиты от них требуются автоматизированные средства, которые могут эффективно моделировать и анализировать такие сценарии.
## Метод
Мы предлагаем поисковую фреймворк для анализа и отражения рисков конфиденциальности в LLM-агентах. Он основывается на симуляции взаимодействия между тремя ролями: **данные подлежащие защите**, **атакующий агент** и **защитный агент**. В каждом эксперименте данные подлежащие защите определяются, а атакующий агент пытается их извлечь, используя многотактные диалоги, в то время как защитный агент адаптируется для предотвращения этого. Мы используем генерирующие языковые модели для оптимизации этих ролей, определяя новые инструкции для каждой роли на каждом шаге. Этот подход позволяет проводить многопоточные поисковые процедуры с параллельным обслуживанием инструкций и использованием параллельной синхронизации. Это предлагается для быстрого и эффективного обнаружения рисков конфиденциальности.
## Результаты
Мы проводили эксперименты, в которых виртуальные агенты проводят диалоги от имени пользователя и стараются извлечь чувствительные данные. Мы используем данные из различных сценариев, включая персональные данные, финансовую информацию и личные предпочтения. Наши эксперименты показали, что атакующие стратегии развиваются от простых запросов к более сложным многотактным сценариям, таким как имитация и подделка согласия. Защитные стратегии также развивались, перемещаясь от простых правил до более сложных механизмов, таких как взаимодействие с удостоверениями. Наши результаты показали, что атаки и защиты, обнаруженные в одной среде, могут быть перенесены в другие, что демонстрирует их практическую значимость.
## Значимость
Результаты нашей работы имеют широкие применения в безопасности и конфиденциальности в Интернет-экономике. Наш подход может быть использован для тестирования безопасности в системах с LLM-агентами, для создания более безопасных диалоговых систем и для разработки но
Annotation:
The widespread deployment of LLM-based agents is likely to introduce a
critical privacy threat: malicious agents that proactively engage others in
multi-turn interactions to extract sensitive information. These dynamic
dialogues enable adaptive attack strategies that can cause severe privacy
violations, yet their evolving nature makes it difficult to anticipate and
discover sophisticated vulnerabilities manually. To tackle this problem, we
present a search-based framework that alternates between...
📄 Can AI Keep a Secret? Contextual Integrity Verification: A Provable Security Architecture for LLMs
2025-08-15Авторы:
Aayush Gupta
## Контекст
Large language models (LLMs) являются мощными инструментами для обработки естественного языка, но остаются чрезвычайно уязвимыми для атак, таких как проникновение с помощью принудительной инъекции промптов (prompt injection). Такие атаки позволяют злоумышленникам обходить безопасность моделей, используя контрольные простыни, вирусы текста и другие хитрости. Несмотря на развитие графических пользовательских интерфейсов и настройки гибридных моделей, эти угрозы не устранены. Одной из главных проблем является недостаток верификации контекста, что приводит к нежелательным побочным эффектам. Мотивирует это значительное злоупотребление подобными уязвимостями в различных сферах, от кибербезопасности до безопасности частных данных. Целью данного исследования является разработка проблемно-ориентированной безопасной архитектуры, которая может защищаться от таких атак, обеспечивая высокую прозрачность и неинтерферентность.
## Метод
Методология применяемой в работе основывается на применении архитектуры **Contextual Integrity Verification (CIV)**, которая внедряет криптографически подписанные метки происхождения в каждый токен предоставляемых данных. В качестве дополнительного уровня защиты вводится **source-trust lattice** — механизм, который применяет источниковую трассировку токенов, используя твердые градиенты в маске пропускания токена (включая возможность включения FFN/residual gating). Это позволяет определять и отсекать токены, которые могут быть использованы для нежелательных атак. Архитектура CIV работает в режиме **inference-time**, чтобы не требовать переобучения моделей. Она является дополнительным модулем, который может быть применен к уже примененным моделям без необходимости тщательного тюнинга.
## Результаты
Для оценки эффективности CIV были проведены эксперименты с использованием данных, основанных на текущих тезаурусах проникающих атак (Elite-Attack и SoK-246). Исследования показали, что CIV достигает 0% успеха атак в указанном технологическом моделе, сохраняя 93,1% токенного размера. Это означает, что модель может защищаться от хитрых принудительных атак, не теряя качества соответствия благонадёжному тексту. Кроме того, CIV не вызывает существенного замедления выполнения модели, за счет легковесного характера технологии. Мы также продемонстрировали примеры защиты с помощью LLama-3-8B и Mistral-7B, которые были защищены без нужды в тюнинге или переобучении.
## Значимость
Разработанная архитектура CIV может быть применена в различных сферах, где необходима защита от нежелательных атак на модели ИИ. Области, в которых CIV может иметь преимущества, включают бе
Annotation:
Large language models (LLMs) remain acutely vulnerable to prompt injection
and related jailbreak attacks; heuristic guardrails (rules, filters, LLM
judges) are routinely bypassed. We present Contextual Integrity Verification
(CIV), an inference-time security architecture that attaches cryptographically
signed provenance labels to every token and enforces a source-trust lattice
inside the transformer via a pre-softmax hard attention mask (with optional
FFN/residual gating). CIV provides determini...
📄 Shadow in the Cache: Unveiling and Mitigating Privacy Risks of KV-cache in LLM Inference
2025-08-15Авторы:
Zhifan Luo, Shuo Shao, Su Zhang, Lijing Zhou, Yuke Hu, Chenxu Zhao, Zhihao Liu, Zhan Qin
## Контекст
Large Language Models (LLMs) стали ключевыми инструментами для решения различных задач, включая генерацию текста, синтез кода и анализ данных. Одной из основных оптимизаций, позволяющих увеличить эффективность их интерпретации, является использование Key-Value (KV) cache. Этот механизм хранит intermediate attention computations, что позволяет избежать повторных вычислений и ускорить процесс. Однако, несмотря на свою полезность, KV-cache создает недооцененные вопросы безопасности и конфиденциальности. Например, он может хранить конфиденциальные данные пользователя, которые впоследствии могут быть использованы в незаконных целях. В настоящее время существуют недостатки в анализе и стратегиях защиты этого критического компонента. Этот новый исследование направлено на изучение существующих проблем и разработку эффективных методов защиты.
## Метод
Методология исследования состоит из нескольких этапов. В первую очередь, авторы проанализировали архитектуру KV-cache и установили, что она может содержать конфиденциальные данные, которые могут быть подвержены атакам. Затем они разработали три уникальных вектора атаки: **Direct Inversion Attack**, **Collision Attack** и **Injection Attack**. Эти атаки используют разные подходы для извлечения информации из KV-cache. Для защиты, авторы предложили KV-Cloak — новую защитную схему, которая основывается на reversible matrix-based obfuscation и operator fusion. Они также описали алгоритмы реализации и меры, использованные для оценки эффективности защиты.
## Результаты
На экспериментальных данных показано, что атаки способны восстановить сентиментные данные из KV-cache с высокой точностью. Например, в Direct Inversion Attack, атакующий может восстановить конкретные фрагменты текста, использованные в интерпретации. Collision Attack позволяет атакующему угадывать взаимосвязи между разными данными. Injection Attack добавляет злонамеренные данные в KV-cache, что повлияет на последующие вычисления. Однако при использовании KV-Cloak эти атаки оказались ненадежными: восстановленная информация становится непонятной и бессмысленной, а результаты модели остаются почти неизменными. Эти результаты подтверждают эффективность KV-Cloak в сочетании с минимальным ущербным эффектом на производительность и модельный accuracy.
## Значимость
Результаты имеют большое значение в сферах, где защита конфиденциальных данных является критически важной. KV-Cloak может быть применен в области конфиденциальных текстовых моделей, медицинского анализа и других приложениях, где конфиденциальность является первостепенной задачей. Ключевым преимуществом является то, что он обеспечивает высокую защиту без существенного снижения производительности и точности. Это
Annotation:
The Key-Value (KV) cache, which stores intermediate attention computations
(Key and Value pairs) to avoid redundant calculations, is a fundamental
mechanism for accelerating Large Language Model (LLM) inference. However, this
efficiency optimization introduces significant yet underexplored privacy risks.
This paper provides the first comprehensive analysis of these vulnerabilities,
demonstrating that an attacker can reconstruct sensitive user inputs directly
from the KV-cache. We design and impl...
Авторы:
Sanket Badhe
## Контекст
Появление Large Language Models (LLMs) ознаменовало новую эру в области генерируемых текстов, позволивших повысить автоматизацию процессов творчества и повысить эффективность решения задач. Однако с этим связана и новая проблема — возможность использования LLMs для создания сценариев шантажных звонков, которые могут осложнить жизнь пользователям и привести к потерям финансовыми и другими путями. Данная статья раскрывает проблему технологических средств, которые могут быть использованы в этом направлении.
## Метод
ScamAgent — это автономная система, которая построена на базе LLMs и использует их для генерирования сценариев шантажных звонков. Она может взаимодействовать с пользователем в течение нескольких очередных раундов, при этом адаптируя свои ответы и учитывая динамику разговора. Это решение позволяет создавать более реалистичные сценарии, которые могут эмулировать реальные ответы пользователя. Для реализации этого процесса используется технология декомпозиции запроса, что позволяет скрыть намерение использования технологии от LLMs.
## Результаты
В экспериментах было продемонстрировано, что ScamAgent может создавать шантажные сценарии, которые полностью эмулируют реальные звонки. Данные эксперименты были проведены на больших объемах данных с реальными шантажными звонками, что позволило создать реалистичные модели. Также было проверено, что системы с традиционными методами защиты, такими как блокировка запросов или фильтрация контента, не могут справиться с подобным типом угроз.
## Значимость
Результаты, полученные в рамках данного исследования, могут быть применены в сфере защиты данных и предотвращения мошенничества. Данный подход может быть использован для разработки новых методов защиты от мошеннических звонков, в частности для создания моделей, которые могут анализировать и распознавать подобные сценарии. Это может привести к повышению уровня безопасности данных в сетях и повышению полномочий пользователей.
## Выводы
В результате исследования было установлено, что технологии генерируемого текста могут быть использованы для создания шантажных сценариев. Данная проблема требует уделения большего внимания, так как может привести к серьезным последствиям. В будущем необходимо развить новые методы анализа данных и технологий для распознавания таких сценариев, чтобы повысить уровень защиты пользователей.
Annotation:
Large Language Models (LLMs) have demonstrated impressive fluency and
reasoning capabilities, but their potential for misuse has raised growing
concern. In this paper, we present ScamAgent, an autonomous multi-turn agent
built on top of LLMs, capable of generating highly realistic scam call scripts
that simulate real-world fraud scenarios. Unlike prior work focused on
single-shot prompt misuse, ScamAgent maintains dialogue memory, adapts
dynamically to simulated user responses, and employs decep...
Показано 41 -
50
из 50 записей