📚 Саммари научных статей из arXiv

Найдено 470 результатов по запросу 'cs.CR, cs.AI' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Stand on The Shoulders of Giants: Building JailExpert from Previous Attack Experience

2025-08-29

Авторы:

Xi Wang, Songlei Jian, Shasha Li, Xiaopeng Li, Bin Ji, Jun Ma, Xiaodong Liu, Jing Wang, Feilong Bao, Jianfeng Zhang, Baosheng Wang, Jie Yu

## Контекст Large language models (LLMs) становятся все более важными для широкого спектра задач, включая генерацию текстов, трансляцию и взаимодействие с пользователями. Однако широкое распространение LLM подвергает их собственному риску — технике "jailbreak prompt". Эта техника позволяет обойти безопасностные меры, которые обычно применяются к LLM, и выводит модели на выход нежелательных, порой даже вредоносных ответов. Такие "jailbreak" мотивируют развитие новых методов для понимания и устранения этих уязвимостей. Однако существующие методы, основывающиеся на итеративной мутации и динамическом оптимизации, сталкиваются с проблемами: неэффективностью и накоплением незадействованных достижений прошлых атак. Данная работа обращает внимание на эту проблему, предлагая новую архитектуру для автоматического jailbreak-атак, которая учитывает опыт прошлых атак и стремится улучшить не только эффективность, но и универсальность результатов. ## Метод В статье предлагается архитектура **JailExpert**, новая автоматизированная система для jailbreak-атак. Она включает в себя следующие преимущества: 1. **Общий подход к формальной модели опыта**: JailExpert использует новую модель, позволяющую формально представлять и хранить опыт прошлых атак. Это позволяет активно добавлять новые данные в "пул опыта" и упорядочивать их с учетом семантических изменений. 2. **Групповое семантическое сворачивание**: JailExpert использует техники, которые сворачивают семантически близкие атаки в группы, что дает более гибкий и эффективный подход к их организации. 3. **Динамическое обновление пула опыта**: Алгоритм JailExpert может автоматически обновлять пул опыта в зависимости от результатов новых атак, чтобы постоянно улучшать как эффективность, так и качество выхода. 4. Использование эффективных методов оптимизации: JailExpert использует продвинутые методы градиентного мутации, которые способствуют быстрой оптимизации целей и уменьшению времени выполнения. ## Результаты Проведены обширные эксперименты с JailExpert на различных LLM, включая GPT-2, GPT-3 и другие модели. Набор данных, использованных в экспериментах, включал обучающийся текстов, с целью подтвердить эффективность JailExpert в сравнении с текущими методами. Результаты этих экспериментов показали: 1. **Увеличение успешности атак**: JailExpert показал средний увеличение успешности атаки до 17% в сравнении со стандартными методами. 2. **Улучшение эффективности**: JailExpert увеличил эффективность атак в 2,7 раза по сравнению с современными методами. 3. **Увеличение универсальности**:

Annotation:

Large language models (LLMs) generate human-aligned content under certain safety constraints. However, the current known technique ``jailbreak prompt'' can circumvent safety-aligned measures and induce LLMs to output malicious content. Research on Jailbreaking can help identify vulnerabilities in LLMs and guide the development of robust security frameworks. To circumvent the issue of attack templates becoming obsolete as models evolve, existing methods adopt iterative mutation and dynamic optimi...

ID: 2508.19292v1 cs.CR, cs.AI

arXiv PDF

📄 An Investigation on Group Query Hallucination Attacks

2025-08-29

Авторы:

Kehao Miao, Xiaolong Jin

## Контекст С появлением крупных языковых моделей (LLMs), понимание их потенциальных сбоев при взаимодействии с пользователями стало ключевым вопросом. Особенно интересно, как LLMs обрабатывают множество вопросов в рамках одной беседы. Это может привести к сбоям в выводах из-за нежелательных влияний между соседними запросами. Данное исследование фокусируется на рассмотрении **Group Query Attack (GQA)** — нового метода, симулирующего такие сценарии. Он позволяет изучить, как последовательность запросов влияет на выводы языковых моделей, а также на способность моделей выполнять прикладные задачи. ## Метод **Group Query Attack** представляет собой метод, в котором группа запросов представляется языковой модели одновременно. В рамках данного исследования, авторы применяют GQA к моделям с разным функционалом, включая задачи моделирования, рассуждения и кодогенерации. Особое внимание уделено изучению зависимости результатов от влияния смежных запросов, а также изучению возможности инициировать backdoor-атаки через GQA. Эксперименты проводятся с использованием предобученных моделей и их адаптаций под конкретные задачи. ## Результаты Исследование показало, что **Group Query Attack** существенно ухудшает производительность моделей, особенно тех, которые были приучены к конкретным задачам. Это происходит из-за того, что соседние запросы влияют на контекст вывода модели, что приводит к ошибкам в выводах. Также, GQA демонстрирует риск инициировать backdoor-атаки, когда модель вместо предсказания на основе входных данных склоняется к ответу, который связан с заранее загруженным в модель backdoor-триггером. Тестирование проводилось на задачах реального применения, включая логическое и математическое рассуждение, а также на создании кода. ## Значимость **Group Query Attack** может использоваться в разных областях, включая защиту от вредоносных атак на языковые модели, анализ их уязвимостей и оценку качества взаимодействия с пользователем. Этот метод имеет потенциал для улучшения обучения моделей, чтобы сделать их более устойчивыми к внешним влияниям. Это может положительно сказаться на безопасности и эффективности использования языковых моделей в реальных приложениях. ## Выводы **Group Query Attack** является эффективным методом для исследования потенциальных сбоев в языковых моделях при их взаимодействии с пользователями. Результаты жизнеспособны для дальнейшего исследования в области улучшения устойчивости моделей к таким атакам. Будущие исследования будут фокусироваться на развитии методов, позволяющих обнаруживать и предотвращать подобные сбои в моделях, а также на исследовании их последствий для различных прикладных задач.

Annotation:

With the widespread use of large language models (LLMs), understanding their potential failure modes during user interactions is essential. In practice, users often pose multiple questions in a single conversation with LLMs. Therefore, in this study, we propose Group Query Attack, a technique that simulates this scenario by presenting groups of queries to LLMs simultaneously. We investigate how the accumulated context from consecutive prompts influences the outputs of LLMs. Specifically, we obse...

ID: 2508.19321v1 cs.CR, cs.AI, cs.CL

arXiv PDF

📄 Addressing Weak Authentication like RFID, NFC in EVs and EVCs using AI-powered Adaptive Authentication

2025-08-29

Авторы:

Onyinye Okoye

## Контекст Современное развитие электромобилей (EVs) и систем зарядки электромобилей (EVCs) привносит новые сложности в области кибербезопасности. Распространенными аутентификационными механизмами в этой сфере являются Radio Frequency Identification (RFID) и Near Field Communication (NFC). Они легковуше и удобны для пользователей, но имеют серьезные ограничения: использование статичных идентификаторов и малоэффективное шифрование. Это делает их высокоуязвимыми для атак, таких как клонирование, атаки посредством передачи (relay), подделка сигналов (eavesdropping), и многие другие. Эти уязвимости могут привести к значительным последствиям, в том числе к уголовным действиям, финансовым убыткам и угрозам безопасности жизнедеятельности. В этом контексте возникает необходимость разработки более надёжных и прочных механизмов аутентификации, чтобы обеспечить безопасность и надежность EVs и EVCs. ## Метод Исследование основывается на сочетании машинного обучения, аномалий детектирования, анализа поведения и контекстуального рискового оценивания. Методология разработки включает в себя не только технические решения, но и методы, которые позволяют использовать адаптивную аутентификацию. Эта адаптивная модель аутентификации использует алгоритмы скрытого поведения, которые анализируют поведение пользователя в реальном времени и используют контекстные данные для выявления необычного поведения. Основная архитектура предлагаемой модели включает в себя несколько слоев: модель машинного обучения для обнаружения аномалий, модель контекстного анализа для оценки риска и модель автоматического аутентификации, которая принимает решение о продолжении или завершении процесса аутентификации. Эти модели объединены в одну систему, которая оптимизирует процесс аутентификации и обеспечивает защиту от различных видов атак. ## Результаты Эксперименты проводились на выборке, включающей данные с различных источников, таких как реальные сценарии атак на RFID и NFC, а также ситуации, когда пользователи используют EVs и EVCs в различных условиях. Результаты показывают, что предложенная модель эффективно распознает попытки атаки и предотвращает их, снижая вероятность успешного взлома до низкого уровня. Например, в сценарии клонирования RFID-токена модель обнаружила атаку с вероятностью 98,5%, что гораздо выше, чем у традиционных методов. Аналогичный успех был получен при оценке влияния атак посредством передачи (relay). Эти результаты указывают на то, что предлагаемая модель выдаёт значительно лучшие результаты по сравнению с традиционными методами аутентификации. ## Значимость

Annotation:

The rapid expansion of the Electric Vehicles (EVs) and Electric Vehicle Charging Systems (EVCs) has introduced new cybersecurity challenges, specifically in authentication protocols that protect vehicles, users, and energy infrastructure. Although widely adopted for convenience, traditional authentication mechanisms like Radio Frequency Identification (RFID) and Near Field Communication (NFC) rely on static identifiers and weak encryption, making them highly vulnerable to attack vectors such as ...

ID: 2508.19465v1 cs.CR, cs.AI

arXiv PDF

📄 SIExVulTS: Sensitive Information Exposure Vulnerability Detection System using Transformer Models and Static Analysis

2025-08-29

Авторы:

Kyler Katz, Sara Moshtari, Ibrahim Mujhid, Mehdi Mirakhorli, Derek Garcia

#### Контекст Сенситивная информационная вытеска (Sensitive Information Exposure, SIEx) — это класс уязвимостей (CWE-200), характеризующийся незаконным получением конфиденциальной информации. Она остается одной из наиболее распространенных причин утечек данных, приводящих к серьезным безопасностным проблемам. Однако существующие системы детектирования этих уязвимостей часто недостаточно точны и не учитывают контекстно-зависимые аспекты. Мотивацией для разработки SIExVulTS является потребность в эффективной системе, которая могла бы обнаруживать и проверять уязвимости SIEx в коде, особенно в Java-приложениях. #### Метод SIExVulTS является трехэтапной системой, объединяющей модели на основе трансформеров с статическим анализом кода. **Первый этап** — Attack Surface Detection Engine — использует модели преобразования для обнаружения конфиденциальных переменных, строк, комментариев и точек входа в код (sinks). **Второй этап** — Exposure Analysis Engine — анализирует полученные данные с помощью CodeQL-запросов, структурированных в соответствии с иерархией CWE-200. **Третий этап** — Flow Verification Engine — использует GraphCodeBERT для подтверждения потоков данных от источника к стоке с помощью семантического анализа. Эта система была протестирована на данных, включая реальные CVE, синтетические примеры CWE-200 и данные из 31 открытых проектов. #### Результаты SIExVulTS продемонстрировала заметную эффективность во всех стадиях. Attack Surface Detection Engine показала F1-метрику выше 93%, Exposure Analysis Engine — 85.71%, а Flow Verification Engine улучшила точность с 22.61% до 87.23%. Благодаря этой системе были выявлены шесть новых CVE в крупных Apache-проектах. Эти результаты подтверждают высокую точность и практичность SIExVulTS в обнаружении и проверке уязвимостей SIEx. #### Значимость SIExVulTS может использоваться в различных областях, включая аудит безопасности, тестирование программного обеспечения и анализ безопасности приложений. Она предлагает преимущества в том числе более точном и контекстно-зависимом обнаружении уязвимостей, чем существующие инструменты. Дальнейшие исследования могут сфокусироваться на расширении поддержки других языков программирования и интеграции с динамическим анализом. #### Выводы SIExVulTS представляет собой перспективный инструмент для обнаружения уязвимостей SIEx, особенно в Java-приложениях. Она доказала свою эффективность в улучшении безопасности программного обеспечения, а также открыла пути для будущих разработок в области анализа и защиты программных систем.

Annotation:

Sensitive Information Exposure (SIEx) vulnerabilities (CWE-200) remain a persistent and under-addressed threat across software systems, often leading to serious security breaches. Existing detection tools rarely target the diverse subcategories of CWE-200 or provide context-aware analysis of code-level data flows. Aims: This paper aims to present SIExVulTS, a novel vulnerability detection system that integrates transformer-based models with static analysis to identify and verify sensitive info...

ID: 2508.19472v1 cs.CR, cs.AI

arXiv PDF

📄 Servant, Stalker, Predator: How An Honest, Helpful, And Harmless (3H) Agent Unlocks Adversarial Skills

2025-08-29

Авторы:

David Noever

## Контекст В нынешнем времени агентные системы, основанные на Model Context Protocol (MCP), применяются в различных сферах, включая браузерную автоматизацию, финансовый анализ, локационный мониторинг и развертывание кода. Однако существуют значительные проблемы в обеспечении их безопасности. Наиболее критичным является фундаментальное предположение о изоляции сервисов, которое, по мнению автора, является уязвимым. Основной мотивацией для данного исследования является необходимость изучения ситуации, когда безопасные, отдельно взятые задачи, выполняемые агентами, могут сочетаться в цепочке, приводящую к вредоносным последствиям. Данное исследование нацелено на выявление и анализ такого типа уязвимостей, связанных с последовательностью задач, а также на разработку экспериментальных методов для их выявления и оценки. ## Метод Для исследования использована эмпирическая методология, основанная на изучении реальных агентских систем, работающих в средах с несколькими сервисами. Автор вводит понятие "3H Agent" (Honest, Helpful, Harmless), определяющее модель агента, который не призван наносить вреда, но может внезапно выступать в качестве злонамеренного агента в ситуациях, когда он координирует свои задачи с другими. Основной методом является "red team testing", который предполагает проверку системы на наличие уязвимостей, связанных с цепочными задачами. Тестируются 95 агентов, каждый работающий с несколькими сервисами. Использованный подход включает в себя создание атак, которые могут произойти в результате цепочных действий, а также изучение потенциальных сценариев, в которых эти атаки могут привести к вредоносным последствиям. ## Результаты Изучение проводилось в условиях лаборатории, где проводились ряд экспериментов со системами, использующими MCP. Было выявлено, что 95 агентов, протестированных в рамках данного исследования, могут совместно выполнять задачи, приводящие к вредоносным последствиям. Например, агенты могут сотрудничать для выполнения таких задач, как данные эксфильтрации, финансовые манипуляции и угрозы инфраструктуры. Был разработан конкретный экспериментальный фреймворк для оценки этих уязвимостей, который не ограничивается проверкой того, могут ли агенты выполнять конкретные задачи, но также рассматривает возможность их совместной работы для достижения вредоносных целей. Эксперименты показали, что существуют уязвимости в системах, где несколько сервисов могут быть использованы совместно, что приводит к выходу за пределы безопасности любого одного из них. ## Значимость Результаты данного исследования имею

Annotation:

This paper identifies and analyzes a novel vulnerability class in Model Context Protocol (MCP) based agent systems. The attack chain describes and demonstrates how benign, individually authorized tasks can be orchestrated to produce harmful emergent behaviors. Through systematic analysis using the MITRE ATLAS framework, we demonstrate how 95 agents tested with access to multiple services-including browser automation, financial analysis, location tracking, and code deployment-can chain legitimate...

ID: 2508.19500v1 cs.CR, cs.AI

arXiv PDF

📄 Intellectual Property in Graph-Based Machine Learning as a Service: Attacks and Defenses

2025-08-29

Авторы:

Lincan Li, Bolin Shen, Chenxi Zhao, Yuxiang Sun, Kaixiang Zhao, Shirui Pan, Yushun Dong

## Контекст Граф-структурированные данные представляют собой модели, описывающие неевклидовые отношения и взаимодействия между сущностями. Их объем и сложность возрастают быстрыми темпами, что приводит к появлению сложных граф-моделей машинного обучения (GML). Такие модели требуют больших вычислительных ресурсов для обучения, что делает их ин Intellektual'nymi Soobscheniyami (IP), которые требуют максимальной защиты. С другой стороны, возникла Graph-based Machine-Learning-as-a-Service (GMLaaS), что позволяет использовать модели GML через облачные сервисы. GMLaaS эффективно решает проблему ресурсоемкости обучения, но при этом повышает риск атак на модель и входные данные. Исследование стратегий защиты IP в таком контексте является актуальным и в полной мере мотивирует настоящую работу. ## Метод Наша методология основывается на построении полного каркаса для защиты IP в окружении GMLaaS. Мы развиваем специальную тем taxonomii (таксономии), разделяя угрозы и защитные меры на уровне граф-моделей и графов. Для оценки методов защиты IP предлагается рамка для подробного экспериментального анализа. Был создан набор бенчмарк-данных из различных сфер, предназначенных для тестирования методов защиты. Кроме того, была разработана библиотека PyGIP, обеспечивающая реализацию методов защиты и атак в GMLaaS-системах. ## Результаты Мы проводим эксперименты с разными атаками и защитными методами, используя наши бенчмарк-данные. Эти испытания позволяют изучить эффективность того или иного метода защиты. Основной результат — возможность углубленного понимания проблем защиты IP в GMLaaS-системах и подтверждение реального вклада в развитие этой области. ## Значимость Разработанные техники и инструменты могут применяться в различных сферах, где используются граф-модели — например, в сфере финансов, здравоохранения, социальных сетей и т.д. Защита IP в GMLaaS позволяет улучшить безопасность моделей и данных, что имеет критическую важность для интеллектуальной собственности в машинном обучении. ## Выводы Наша работа является первым подробным обзором угроз и методов защиты IP в GMLaaS. Мы предлагаем таксономию угроз, методы оценки, бенчмарк-данные и основные результаты. Библиотека PyGIP будет инструментом для последующих исследований в этой области. Мы предлагаем направления для будущих исследований, сфокусированные на улучшении защиты IP в граф-моделях машинного обучения.

Annotation:

Graph-structured data, which captures non-Euclidean relationships and interactions between entities, is growing in scale and complexity. As a result, training state-of-the-art graph machine learning (GML) models have become increasingly resource-intensive, turning these models and data into invaluable Intellectual Property (IP). To address the resource-intensive nature of model training, graph-based Machine-Learning-as-a-Service (GMLaaS) has emerged as an efficient solution by leveraging third-p...

ID: 2508.19641v1 cs.CR, cs.AI

arXiv PDF

📄 Safety Alignment Should Be Made More Than Just A Few Attention Heads

2025-08-29

Авторы:

Chao Huang, Zefeng Zhang, Juewei Yue, Quangang Li, Chuang Zhang, Tingwen Liu

#### Контекст Безопасность текстовых кLARGE LANGUAGE MODELS (LLMs) является ключевым аспектом их применения в реальном мире. Однако существующие механизмы безопасности LLMs часто оказываются уязвимыми перед тем, как специально создаваемые входные данные (adversarial prompts), которые могут обходить эти меры безопасности. Это происходит в основном из-за того, что большинство механизмов безопасности ориентируются на небольшое количество ататенциональных голов (attention heads), которые обеспечивают безопасность. Исследования показали, что удаление или блокировка этих голов может сильно затруднить надлежащее поведение модели в области безопасности. Это означает, что существующие системы безопасности текстовых моделей зачастую рискуют целиком полагаться на небольшую группу ататенциональных голов, что делает их эффективными целями для атак. #### Метод Мы предлагаем RDSHA (Refusal Direction-based Safety Head Ablation), метод абляции, который использует направление отказа модели (refusal direction) для идентификации голов внимания, которые играют ключевую роль в обеспечении безопасности. Этот метод позволяет определять те головы внимания, которые играют ключевую роль в процессе безопасности. Далее, мы применяем новую стратегию тренировки, AHD (Attention Head Distribution), которая предназначена для распределения тех же безопасных функций по множеству других голов внимания. Это позволяет модели распределять безопасность по более широкой области ататенциональных голов, что уменьшает зависимость от небольшого количества ключевых голов. #### Результаты Мы провести эксперименты, используя ряд различных безопасностных тестов и атак, включая mainstream jailbreak attacks. Мы проверили, насколько эффективно RDSHA может определять ключевые головы внимания, которые отвечают за безопасность. Далее, мы оценили, насколько эффективно AHD может распределять безопасность по более широкому набору голов внимания, и исследовали, насколько эта распределенная безопасность сохраняет эффективность и релевантность модели в реальных сценариях. Наши результаты показали, что AHD успешно распределяет безопасность по большему количеству голов внимания, что улучшает общую безопасность модели и уменьшает вероятность обхода этих механизмов. #### Значимость Улучшенные методы безопасности LLMs имеют большое значение для многих областей, включая образование, финансы, здравоохранение и транспорт. Наша работа демонстрирует, что распределенная безопасность может существенно улучшить надежность и безопасность LLMs в тех случаях, когда атаки на основе adversarial prompts становятся все более сложными

Annotation:

Current safety alignment for large language models(LLMs) continues to present vulnerabilities, given that adversarial prompting can effectively bypass their safety measures.Our investigation shows that these safety mechanisms predominantly depend on a limited subset of attention heads: removing or ablating these heads can severely compromise model safety. To identify and evaluate these safety-critical components, we introduce RDSHA, a targeted ablation method that leverages the model's refusal d...

ID: 2508.19697v1 cs.CR, cs.AI, cs.CL

arXiv PDF

📄 From Research to Reality: Feasibility of Gradient Inversion Attacks in Federated Learning

2025-08-29

Авторы:

Viktor Valadi, Mattias Åkesson, Johan Östman, Salman Toor, Andreas Hellander

## Контекст Federated learning (FL) — это метод обучения моделей с помощью распределенных данных, где клиенты обучают модель локально и делят градиенты с сервером. Однако этот процесс подвержен атакам "gradient inversion", которые могут раскрыть информацию о локальных данных клиентов. Несмотря на появление многих исследований в этой области, остаются вопросы относительно реальности этих атак в условиях реального применения FL. Например, большинство работ ориентированы на уязвимости моделей в режиме инференса, где отключены узколочесткие механизмы, такие как dropout и batch normalization с динамическими статистиками. Наше исследование ориентировано на понимание, как архитектура и тип рабочего режима FL влияют на возможность этих атак в более реалистичных условиях. ## Метод Мы проводим систематический анализ уязвимости федеративных моделей в различных условиях обучения. Для этого используются различные модели, включая глубокие нейросети для классификации изображений и продвинутые модели для обнаружения объектов. Мы используем два основных подхода: атаки с градиентами в режиме инференса (где условия сильно упрощены) и атаки в режиме обучения с учетом реальных условий. Наша методология включает разработку двух новых атак, оптимизированных для различных уровней знаний у атакующего, и подробный эксперимент на модели детектирования объектов в реальном применении. ## Результаты Мы показали, что успешные атаки возможны только при сочетании нескольких условий в архитектуре моделей, включая их ширину, наличие skip-связей и применение pre-activation normalization. Кроме того, мы проверили эффективность нашего атакующего подхода на реальной модели детектирования объектов, где удалось получить успешный градиентный инверсионный атаку только при указанных условиях. Однако, при использовании реальных условий, обнаружено, что сильно ухудшается эффективность таких атак. ## Значимость Наши результаты имеют практическое значение для оценки риска атак в FL. Мы показали, что некоторые архитектурные решения могут значительно усиливать или слабеить уязвимость моделей к таким атакам. Эти находки полезны для разработчиков, помогая им понять, когда и как использовать техники, которые могут уменьшить риск вытекающих из FL данных. Это также открывает пути для будущих исследований в области обеспечения приватности в FL. ## Выводы Мы представили первую подробную исследовательскую работу, которая оценивает риск атак "gradient inversion" в различных условиях тренировки и сериализации моделей в FL. Мы доказали, что некоторые архитектурные решения могут сильно увеличивать уязвимость моделей к таким атакам, но в реальных условиях, эти атаки ока

Annotation:

Gradient inversion attacks have garnered attention for their ability to compromise privacy in federated learning. However, many studies consider attacks with the model in inference mode, where training-time behaviors like dropout are disabled and batch normalization relies on fixed statistics. In this work, we systematically analyze how architecture and training behavior affect vulnerability, including the first in-depth study of inference-mode clients, which we show dramatically simplifies inve...

ID: 2508.19819v1 cs.CR, cs.AI, cs.LG

arXiv PDF

📄 SoK: Large Language Model Copyright Auditing via Fingerprinting

2025-08-29

Авторы:

Shuo Shao, Yiming Li, Yu He, Hongwei Yao, Wenyuan Yang, Dacheng Tao, Zhan Qin

## Контекст Область исследования связана с защитой интеллектуальной собственности в сфере тренировки и использования больших языковых моделей (LLMs). Из-за высокой стоимости тренировки и большого размера этих моделей, они являются ценным интеллектуальным капиталом, который часто становится целью незаконного использования или кражи. Одним из потенциальных способов защиты является **LLM fingerprinting**, метод, основанный на извлечении и сравнении отличительных признаков моделей. Несмотря на свою удобную настройку и применение, этот подход сталкивается с проблемой неоднородного поведения моделей после модификаций, таких как fine-tuning, quantization и др., а также отсутствием стандартных критериев для оценки его эффективности. Мотивацией для данного исследования является развитие критериев отчетности и оценки, чтобы обеспечить надежную защиту LLMs. ## Метод Для решения задачи LLM fingerprinting, авторы предлагают **формальную категоризацию существующих методов** на white-box и black-box подходы. White-box методы предполагают доступ к внутренним параметрам моделей, в то время как black-box методы оперируют только теми выходами модели, которые доступны после ввода запроса. Для оценки эффективности используется **LeaFBench**, первый систематический бенчмарк для LLM fingerprinting. Он содержит 149 вариаций основных моделей, включая как параметр-алтеринговые техники (fine-tuning, quantization), так и без параметров (системные проMPроMPроMPроMPроMPроMPроMPроMPроMPроMPроMPроМпроМки). Бенчмарк покрывает широкий спектр технологий модификации, что дает возможность тестирования различных методов защиты на реальных условиях. ## Результаты Исследования проводились на базе LeaFBench, что позволило сравнить различные параметры моделей и технологии модификации с целью определения сильных и слабых сторон существующих вариантов LLM fingerprinting. Наблюдались различия в производительности различных подходов, в зависимости от типа модификации моделей. Например, black-box методы, основывающиеся на системных проMPроMPроMPроMPроMPроMPроMPроMPроMPроMPроМпроМках, показали высокую устойчивость к некоторым модификациям, но могли быть обойдены при других. Эти результаты позволили выявить ключевые проблемы в защите LLMs и подчеркнуть необходимость развития более универсальных методов. ## Значимость Данный подход может применяться в различных сферах, где необходима защита интеллектуальной собственности в области NLP, включая коммерческие модели LLM. Он предоставляет возможность оценивать и улучшать методы защиты моделей от незаконного использования. Одним из преимуществ является то, что он может быть использован как систематический ме

Annotation:

The broad capabilities and substantial resources required to train Large Language Models (LLMs) make them valuable intellectual property, yet they remain vulnerable to copyright infringement, such as unauthorized use and model theft. LLM fingerprinting, a non-intrusive technique that extracts and compares the distinctive features from LLMs to identify infringements, offers a promising solution to copyright auditing. However, its reliability remains uncertain due to the prevalence of diverse mode...

ID: 2508.19843v1 cs.CR, cs.AI, cs.CL

arXiv PDF

📄 A Systematic Approach to Predict the Impact of Cybersecurity Vulnerabilities Using LLMs

2025-08-28

Авторы:

Anders Mølmen Høst, Pierre Lison, Leon Moonen

## Контекст Обеспечение безопасности в цифровой среде становится все более важной задачей в условиях постоянно усиливающихся угроз силовым цифровым пространству. Одна из ключевых проблем в этой области — недостаток информации о реальном воздействии уязвимостей. Хотя базы данных, такие как National Vulnerability Database (NVD), предоставляют подробные описания уязвимостей, они часто не содержат информации о возможных вариантах их использования в атаках, таких как методы, техники и процедуры (TTP). Анализ такой информации требует значительных усилий и времени, что не позволяет реагировать на новые уязвимости в адекватные сроки. Использование автоматизированных методов для оценки воздействия уязвимостей может значительно улучшить эффективность и скорость анализа, что делает этот подход крайне значимым для систем безопасности. ## Метод Авторы предлагают TRIAGE — методологию, основанную на использовании бо LLM (больших языковых моделей) для автоматического определения воздействия уязвимостей. Метод использует два этапа. В первом этапе LLM применяется для предсказания возможных TTP, используя инструкции на основе ATT&CK-базы знаний. Второй этап использует in-context learning для дополнительного определения TTP, используя контекстная информация из NVD. Этот гибридный подход объединяет rule-based методы и data-driven inference, что позволяет повысить точность и покрытие. Инструментарий TRIAGE может применяться для автоматического предсказания воздействия уязвимостей, основываясь на данных базы NVD. ## Результаты Оценка результатов TRIAGE проводилась с использованием эталонных данных ATT&CK. Было проведено несколько экспериментов с различными моделями LLM, включая GPT-4o-mini и Llama3.3-70B. Результаты показали, что in-context learning выдает лучшие результаты по поиску возможных TTP, чем отдельно взятые rule-based и другие данные-дронные методы. Кроме того, TRIAGE улучшает покрытие и увеличивает чувствительность к редким вариантам использования уязвимостей. GPT-4o-mini показал более высокую точность по сравнению с Llama3.3-70B при использовании TRIAGE. ## Значимость Данный подход может применяться в различных областях безопасности, включая анализ безопасности программного обеспечения, реагирование на инциденты, а также процессы разработки и тестирования. TRIAGE позволяет эффективно повышать эффективность и автоматизировать процессы, связанные с оценкой воздействия уязвимостей. Он может существенно снизить время и ресурсы, необходимые для анализа уязвимостей, и помочь в создании более эффективных стратегий защиты. ## Выводы ТРИАЖ (TRIAGE) — это прорыв в автоматизации процессов оценки в

Annotation:

Vulnerability databases, such as the National Vulnerability Database (NVD), offer detailed descriptions of Common Vulnerabilities and Exposures (CVEs), but often lack information on their real-world impact, such as the tactics, techniques, and procedures (TTPs) that adversaries may use to exploit the vulnerability. However, manually linking CVEs to their corresponding TTPs is a challenging and time-consuming task, and the high volume of new vulnerabilities published annually makes automated supp...

ID: 2508.18439v1 cs.CR, cs.AI, cs.CL, cs.SE

arXiv PDF

1
2
38
39
40
41
42
46
47

Показано 391 - 400 из 470 записей