📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня
Авторы:

Nobin Sarwar, Shubhashis Roy Dipta

#################################### ## Контекст #################################### Федеративное обучение с помощью больших языковых моделей (LLM) широко применяется в секторе здравоохранения и других сильно закрытых областях, где важно сохранить конфиденциальность данных. Однако существуют значительные проблемы: стандартные методы не достаточно эффективно сбалансированы между конфиденциальностью, безопасностью и качеством модели. Например, применение федеративного адаптированного обучения в области клинической психологии требует учета того, что данные отдельных клиентов могут отличаться по характеру и чувствительности, что сказывается на точности модели и ее безопасности. Мы предлагаем FedMentor, новую федеративную модель, которая учитывает эти аспекты и предлагает решение для применения в различных секторах. #################################### ## Метод #################################### FedMentor использует Low-Rank Adaptation (LoRA) для адаптации модели к локальным данным и добавляет встроенный механизм для обеспечения domain-aware Differential Privacy (DP). Каждый клиент (клинический доктор, терапевт или другой участник федерации) применяет отдельный квантом шума в зависимости от чувствительности своих данных. Шум настраивается автоматически, чтобы держаться в пределах заданного приватности бюджета. Кроме того, FedMentor включает адаптивный коррекционный механизм, который может уменьшать шум, когда это необходимо для повышения модели производительности. Оптимизированная архитектура позволяет FedMentor работать на ресурсах клиентов с ограниченным процессорным и памятным объемом, таких как графические ускорители (GPU). #################################### ## Результаты #################################### Мы провели эксперименты на трех различных ментально-здравоохранных датасетах, сравнив FedMentor с другими методами, включая стандартный Federated Learning и модели без приватности. FedMentor показал значительное увеличение "безопасных" выводов (без токсичности и нежелательных слов), повысив "безопасный" рейтинг на 3% в сравнении с базовым Federated Learning. Также FedMentor сохранил высокий уровень точности модели, с BERTScore F1 и ROUGE-L в пределах 0,5% от централизованной модели, а также близко к ней в общем центральном подходе. Особенно значимо, что FedMentor поддерживает эффективность на больших моделях, таких как те с 1.7 миллиардами параметров, работающих на подключенных клиентах, с минимальным объемом обмена данными в каждой итерации. #################################### ## Значимость #################################### FedMentor может применяться в различных областях, где важно обеспечить конфиденциальность (например, медицина, психология, финансы). Он оптимизирует настройку модели на локальных данных, чтобы минимизировать риск выдачи нежелательных результатов, таких как язвительность или неточность. Это позволяет повысить безопасность и работу моде
Annotation:
Privacy-preserving adaptation of Large Language Models (LLMs) in sensitive domains (e.g., mental health) requires balancing strict confidentiality with model utility and safety. We propose FedMentor, a federated fine-tuning framework that integrates Low-Rank Adaptation (LoRA) and domain-aware Differential Privacy (DP) to meet per-domain privacy budgets while maintaining performance. Each client (domain) applies a custom DP noise scale proportional to its data sensitivity, and the server adaptive...
ID: 2509.14275v1 cs.CR, cs.AI, cs.CL, cs.LG
Авторы:

Vaidehi Patil, Elias Stengel-Eskin, Mohit Bansal

## Контекст Становятся все более реалистичными ситуации, когда большие языковые модели (LLMs) применяются в качестве членов многоагентных систем, где они обмениваются данными и совместно выполняют задачи. Это свойство открывает новые возможности, но при этом создает риски для конфиденциальности, которые могут быть недооценены в обычных оценках производительности. Например, отдельные ответы моделей могут быть безопасными, но композиция ответов в ходе многошаговых взаимодействий может позволить злоумышленнику восстановить конфиденциальные данные. Это возникающее явление, называемое **"композиционным утечкой приватности"**, требует новых подходов к защите конфиденциальности в таких системах. Необходимо понять, как сложные взаимодействия между агентами могут привести к такой утечке, и разработать эффективные способы ее предотвращения. ## Метод Разработана архитектура, включающая два новых подхода к защите конфиденциальности в многоагентных системах с LLMs. **Theory-of-Mind defense (ToM)** предполагает, что агенты анализируют мотивы вопрошающего и могут предсказать, как их ответ может быть использован в пользу злоумышленника. **Collaborative Consensus Defense (CoDef)** предполагает, что несколько агентов совместно принимают решения, ограничивая раскрытие конфиденциальных данных. Основной идеей является то, чтобы сбалансировать защиту приватности и целесообразность выполнения задачи. Для оценки этих гипотез использованы синтетические тестовые наборы, в которых эксперименты показывают, насколько эффективно эти методы блокируют композиционные утечки и сохраняют качество выполнения задач. ## Результаты В ходе экспериментов сравнивались эффективность двух подходов: **ToM** и **CoDef**. Обнаружено, что **ToM** эффективно блокирует утечки приватности в контексте композиционных запросов, но может снижать качество решения задач в более простых случаях. **CoDef**, в свою очередь, достигает более гармоничного баланса между защитой и качеством выполнения задач, показывая более высокий баланс обоих показателей (79.8%) в сравнении с другими подходами. Эти результаты подтверждают, что **CoDef** дает наилучший результат при сбалансированной защите и продуктивности. ## Значимость Выявленный подход к защите приватности является релевантным для многоагентных систем, где LLMs применяются в различных приложениях, включая системы управления, медицинские системы и системы управления ИИ. Разработанные методы могут быть применены для защиты конфиденциальных данных в контекстах, где композиция ответов может привести к риску утечки. Этот подход также
Annotation:
As large language models (LLMs) become integral to multi-agent systems, new privacy risks emerge that extend beyond memorization, direct inference, or single-turn evaluations. In particular, seemingly innocuous responses, when composed across interactions, can cumulatively enable adversaries to recover sensitive information, a phenomenon we term compositional privacy leakage. We present the first systematic study of such compositional privacy leaks and possible mitigation methods in multi-agent ...
ID: 2509.14284v1 cs.CR, cs.AI, cs.CL
Авторы:

Guorui Chen, Yifan Xia, Xiaojun Jia, Zhijiang Li, Philip Torr, Jindong Gu

#### Контекст Large language models (LLMs) широко применяются за счет их высокой эффективности и безопасности, обеспеченной гармоничным выравниванием с целевыми ценностями. Однако они остаются уязвимы для jailbreak-атак, при которых модель может породить непристойный или злонамеренный контент. Эта проблема требует эффективных способов обнаружения и предотвращения таких атак. Существующие методы обнаружения jailbreak-атак часто требуют дополнительной вычислительной мощности или множественных проходов модели, что увеличивает стоимость использования LLMs в безопасных приложениях. Мотивация для данного исследования заключается в разработке простого, эффективного и низкозатратного метода для обнаружения jailbreak-атак. #### Метод Мы предлагаем Free Jailbreak Detection (FJD) — простой метод для обнаружения jailbreak-атак, который может быть легко интегрирован в существующие LLM-системы. FJD основывается на значимых различиях в выходных распределениях между jailbreak- и бенгвин-запросами. Метод вводит дополнительную инструкцию при запросе, которая "призывает" модель отвергать нежелательные запросы. Далее, мы усиливаем различия в выходных логитах с помощью температуры для масштабирования. Для дальнейшего улучшения FJD вводится виртуальное обучение инструкций, которое позволяет модели более точно отличать jailbreak-запросы. Эта интегральная архитектура обеспечивает высокую точность в обнаружении jailbreak-атак, не требуя дополнительных вычислений во время прямого использования LLM. #### Результаты Мы проверили FJD на нескольких LLM-системах, включая обученные на данных аллигации. В экспериментах мы сравнили FJD с другими методами обнаружения jailbreak-атак, измеряя точность, полноту и F1-меру. Результаты показали, что FJD показывает высокую точность и низкую ложноположительную стоимость, даже при очень малом дополнительном накладном времени во время инференса. Мы также проанализировали влияние различных факторов, таких как размер модели, температура и виртуальные инструкции, на точность FJD. Результаты показали, что FJD значительно превосходит другие методы в обнаружении jailbreak-атак с минимальными затратами. #### Значимость Метод FJD предлагает доступный и эффективный способ обнаружения jailbreak-атак, значительно сокращая затраты на вычисления. Он может быть легко реализован в существующих LLM-системах без необходимости многократного прохождения модели или дополнительных ресурсов. Это делает FJD привлекательным для приложений, где безопасность и экономичность имеют ключевое значение. Мы также выделяем потенциал FJD для будущих исследований в области безопасности LLMs, включая расширенное применение виртуальных ин
Annotation:
Large language models (LLMs) enhance security through alignment when widely used, but remain susceptible to jailbreak attacks capable of producing inappropriate content. Jailbreak detection methods show promise in mitigating jailbreak attacks through the assistance of other models or multiple model inferences. However, existing methods entail significant computational costs. In this paper, we first present a finding that the difference in output distributions between jailbreak and benign prompts...
ID: 2509.14558v1 cs.CR, cs.AI, cs.CL
Авторы:

Johan Wahréus, Ahmed Hussain, Panos Papadimitratos

## Контекст Large Language Models (LLMs) широко используются для задач автоматизации и генерации контента, но их безопасность часто оказывается уязвимой перед различными jailbreaking-техниками. Однако существуют мало известные способы, которые могут обходить эти механизмы безопасности. Одной из таких техник является **Content Concretization (CC)**, которая представляет собой итеративный процесс, превращающий абстрактные вредоносные запросы в конкретные, выполнимые инструкции. Эта техника имеет два этапа: начальная генерация ответов LLM с помощью моделей с менее строгими фильтрами безопасности, а затем их уточнение с использованием более мощных моделей. Наша цель — исследовать эффективность этого подхода в обходе систем безопасности и оценить его потенциальное влияние на безопасность LLM. ## Метод Методология **Content Concretization (CC)** состоит в передаче входных данных через несколько уровней LLM. На первом этапе используются модели с более снисходительными фильтрами безопасности для получения начальных ответов. На втором этапе эти ответы используются в качестве входных данных для более универсальных моделей, которые уточняют их в зависимости от исходного запроса. Эта методика позволяет использовать различные модели в зависимости от их возможностей и стоимости. Мы использовали 350 запросов, связанных с цибербезопасностью, для оценки эффективности техники CC. Для уточнения использовалась модель LLAMA 2, которая обрабатывала общие запросы, а затем выдавала более конкретные рекомендации. ## Результаты Эксперименты показали, что **Content Concretization** значительно повышает успешность jailbreak-атак. Таким образом, успешность начального запроса с менее строгими моделями была 7%, а после трех итераций уточнения с помощью более сложных моделей стала 62%. Этот результат подтверждается тестами A/B, где тестовые сети с уточненным выводом получили высокие оценки на манипулятивности и технический уровень. Мы также провели ручную оценку кода, полученного в результате тестирования, и подтвердили, что он может выполняться с минимальными изменениями. Несмотря на это, для оптимального использования требуется настройка под конкретный целевой сервис. ## Значимость Выделяются три направления применения **CC**: 1) тестирование безопасности LLM, 2) создание новых malicious code generator, 3) исследование уязвимостей в системах безопасности LLM. Одной из преимуществ данного подхода является его небольшая стоимость (7.5 центов за запрос) и разнообразие моделей, которые могут использоваться для уточнения. Изучение этой техники может помочь разработчикам LLM усовершенствовать свои системы безопасности, идентифицирова
Annotation:
Large Language Models (LLMs) are increasingly deployed for task automation and content generation, yet their safety mechanisms remain vulnerable to circumvention through different jailbreaking techniques. In this paper, we introduce \textit{Content Concretization} (CC), a novel jailbreaking technique that iteratively transforms abstract malicious requests into concrete, executable implementations. CC is a two-stage process: first, generating initial LLM responses using lower-tier, less constrain...
ID: 2509.12937v1 cs.CR, cs.AI, cs.CL
Авторы:

Vitor Hugo Galhardo Moia, Igor Jochem Sanz, Gabriel Antonio Fontes Rebello, Rodrigo Duarte de Meneses, Briland Hitaj, Ulf Lindqvist

## Контекст Большое распространение генерирующихся систем на основе языковых моделей (LLM) привёл к их внедрению в различные сферы жизнедеятельности. Однако эти модели часто становятся целью нападений, например, взломов, утечек данных или дискредитации сервисов. Из-за этого становится крайне важно разработать эффективные стратегии защиты. Необходимо учитывать, что защита LLM-систем необходимо проводить в разных этапах их жизненного цикла, от разработки до эксплуатации. В данной статье предпринята подробная систематическая статистическая статья, направленная на идентификацию угроз и разработку методов их пресечения в реальном мире. ## Метод Для исследования угроз и возможных методов защиты LLM-систем была применена систематическая методология. Начальной стадией была подборка и анализ существующей литературы, чтобы выявить широту различных угроз и предложенных оптимизаций. Далее, были исследованы реальные сценарии применения LLM, чтобы выявить конкретные характеристики их использования и риски. Изучались разные уровни требований к защите, включая требования к сохранности данных и непрерывности работы системы. Также, риски классифицировали в зависимости от их возможного воздействия и уровня серьёзности. ## Результаты В результате работы был составлен подробный каталог угроз и способов их пресечения. Защитные меры были разделены по стадиям жизненного цикла LLM-систем: разработка, развёртывание и эксплуатация. На каждой стадии были выделены конкретные угрозы и предложены рекомендации по их минимизации. Также, были выделены ключевые сценарии использования LLM, каждый из которых имеет уникальные характеристики и риски. Основной результат работы – создание систематизированного подхода к идентификации угроз и их обезвреживанию в различных сферах применения LLM. ## Значимость Результаты работы могут быть применены в различных сферах, включая бизнес-приложения, государственные системы и индивидуальные устройства. Это может способствовать безопасному внедрению LLM-систем в различные проекты и организации, уменьшив риски связанные с утечками данных и несанкционированным доступом. Благодаря данному исследованию, авторы нашлись в позиции облегчить решение ключевых проблем безопасности и повысить ценность LLM-систем в различных областях применения. ## Выводы Работа идентифицировала основные угрозы для LLM-систем и предложила эффективные защитные меры. Она также подчеркнула необходимость продолжительных исследований в сфере безопасности LLM-систем, включая разработку
Annotation:
The success and wide adoption of generative AI (GenAI), particularly large language models (LLMs), has attracted the attention of cybercriminals seeking to abuse models, steal sensitive data, or disrupt services. Moreover, providing security to LLM-based systems is a great challenge, as both traditional threats to software applications and threats targeting LLMs and their integration must be mitigated. In this survey, we shed light on security and privacy concerns of such LLM-based systems by pe...
ID: 2509.10682v1 cs.CR, cs.AI, cs.CL, cs.ET, cs.LG
Авторы:

Waris Gill, Natalie Isak, Matthew Dressman

#### Контекст С появлением широкоизвестных языковых моделей (LLM) в энтерпрайз-системах возникла новая критическая проблема безопасности — распространение проблемы "промусолка инъекции запросов" (prompt injection attacks). Эти атаки могут повторяться в нескольких сервисах, которые обрабатывают пользовательские запросы, но существуют жесткие нормативные ограничения на обмен информацией об атаках. Регулярные требования препятствуют обмену жалобами и данными о проблемах между сервисами, что приводит к тому, что одни сервисы могут недостаточно быстро реагировать на подозрительные активности. Многие организации не могут полноценно оценить угрозы, так как не могут получить доступ к анализу данных из других сервисов. Однако, если бы была возможность безопасного обмена угрозными моделями взаимно полезной информацией, без разглашения конфиденциальных данных, это было бы ключевым решением для повышения безопасности. #### Метод Мы предлагаем BinaryShield, новую систему, которая позволяет безопасно обмениваться "угрозными отпечатками" (threat fingerprints) между LLM-сервисами. Метод шифрует данные, используя технологии, которые позволяют избежать раскрытия конфиденциальных данных в ходе обмена. Базовая идея заключается в том, чтобы превратить подозрительные запросы в некоторую форму уникальных "отпечатков", которые в то же время могут быть использованы для поиска подозрительных моделей, но не выдают информации, которая может подвергнуться неправомерному использованию. Основные этапы методики включают (1) удаление личных данных (PII redaction), (2) преобразование запросов в семантические ин Eмбеддинги (semantic embedding), (3) кодирование данных в бинарный формат (binary quantization), и (4) применение механизма случайных ответов (randomized response) для гарантии конфиденциальности. #### Результаты Мы провели ряд экспериментов для проверки эффективности BinaryShield. Использованы данные, содержащие подозрительные запросы, которые были сравнивались с другими данными для поиска подозрительных моделей. Метод BinaryShield показал высокую точность — F1-меру достигла 0.94, что значительно выше, чем у SimHash (0.77), стандартного метода приватности. Одновременно, BinaryShield позволил сократить требуемое место на хранения данных в 64 раза и увеличить скорость поиска подозрительных моделей в 38 раз по сравнению с традиционным подходом, основанным на технологии dense embeddings. #### Значимость BinaryShield демонстрирует значительный потенциал в обеспечении безопасности в сфере LLM-сервисов. Он предоставляет возможность для безопасного обмена информацией об угрозах между различными сервисами, даже если они работают в разных регуляторных сферах.
Annotation:
The widespread deployment of LLMs across enterprise services has created a critical security blind spot. Organizations operate multiple LLM services handling billions of queries daily, yet regulatory compliance boundaries prevent these services from sharing threat intelligence about prompt injection attacks, the top security risk for LLMs. When an attack is detected in one service, the same threat may persist undetected in others for months, as privacy regulations prohibit sharing user prompts a...
ID: 2509.05608v1 cs.CR, cs.AI, cs.CL, cs.LG
Авторы:

Haywood Gelman, John D. Hastings, David Kenley

#### Контекст Обнаружение инсайдерских угроз является важной проблемой для организаций, так как эти угрозы часто основываются на технических и поведенческих элементах, которые сложно выявить. Достаточно большой объем исследовательских работ посвящен данной проблеме с учетом технических, психологических и образовательных аспектов. Однако многие из этих исследований ограничены данными, доступными только для частичного использования, что приводит к затруднениям в развитии моделей, способных адаптироваться к изменениям. Данное исследование предлагает новую, этически обоснованную модель, основанную на большом языковом модели (LLM) Claude Sonnet 3.7. Эта модель динамически синтезирует системные журналы (syslog), включающие индикаторы инсайдерских угроз. Эти журналы имитируют реальные распределения данных, при этом внутри них инсайдерские угрозы представлены в небольшом проценте (1%). #### Метод Методология исследования основывается на технологии Claude Sonnet 3.7, которая применяется для синтеза системных журналов с индикаторами инсайдерских угроз. Для синтеза используются данные, оптимизированные для низкой частоты встречаемости угроз (1%). Эти синтетические данные позволяют создавать модели, тестируемые в условиях реальности. Для оценки эффективности сравнивались две модели: Claude Sonnet 3.7 и GPT-4o. Оба системы проанализировали синтетические системные журналы с инсайдерскими угрозами, а результаты были оценены с помощью метрик, таких как прецизион (precision), реколл (recall), MCC (Matthews Correlation Coefficient) и ROC AUC (Receiver Operating Characteristic Area Under Curve). #### Результаты Эксперименты показали, что Claude Sonnet 3.7 примерно в 2 раза превосходит GPT-4o по метрикам, таким как precision и MCC. Это связано с более точным выявлением угроз и меньшим количеством ложных срабатываний (false alarms). GPT-4o, в свою очередь, показала лучший recall, но была менее точной в определении положительных случаев. Логаритмический график ROC показал, что Sonnet 3.7 обеспечивает более высокую точность в обнаружении угроз, особенно при небольшом количестве положительных данных. #### Значимость Эти результаты открывают новые возможности для использования глубоких языковых моделей в создании синтетических данных и обнаружении инсайдерских угроз. Это может быть применено в различных сферах, где необходимо мониторинг безопасности и выявление подозрительных действий. Кроме того, решение имеет потенциал для улучшения обнаружения злоумышленников внутри организации, уменьшения ложных срабатываний и повышения достоверности моделей. #### Выводы Результаты экспериментов показывают, что Claude Sonnet 3.7 является эффектив
Annotation:
Insider threats are a growing organizational problem due to the complexity of identifying their technical and behavioral elements. A large research body is dedicated to the study of insider threats from technological, psychological, and educational perspectives. However, research in this domain has been generally dependent on datasets that are static and limited access which restricts the development of adaptive detection models. This study introduces a novel, ethically grounded approach that us...
ID: 2509.06920v1 cs.CR, cs.AI, cs.CL, cs.CY, C.2.0; I.2.7; K.4.1; H.3.3
Авторы:

Kehao Miao, Xiaolong Jin

## Контекст С появлением крупных языковых моделей (LLMs), понимание их потенциальных сбоев при взаимодействии с пользователями стало ключевым вопросом. Особенно интересно, как LLMs обрабатывают множество вопросов в рамках одной беседы. Это может привести к сбоям в выводах из-за нежелательных влияний между соседними запросами. Данное исследование фокусируется на рассмотрении **Group Query Attack (GQA)** — нового метода, симулирующего такие сценарии. Он позволяет изучить, как последовательность запросов влияет на выводы языковых моделей, а также на способность моделей выполнять прикладные задачи. ## Метод **Group Query Attack** представляет собой метод, в котором группа запросов представляется языковой модели одновременно. В рамках данного исследования, авторы применяют GQA к моделям с разным функционалом, включая задачи моделирования, рассуждения и кодогенерации. Особое внимание уделено изучению зависимости результатов от влияния смежных запросов, а также изучению возможности инициировать backdoor-атаки через GQA. Эксперименты проводятся с использованием предобученных моделей и их адаптаций под конкретные задачи. ## Результаты Исследование показало, что **Group Query Attack** существенно ухудшает производительность моделей, особенно тех, которые были приучены к конкретным задачам. Это происходит из-за того, что соседние запросы влияют на контекст вывода модели, что приводит к ошибкам в выводах. Также, GQA демонстрирует риск инициировать backdoor-атаки, когда модель вместо предсказания на основе входных данных склоняется к ответу, который связан с заранее загруженным в модель backdoor-триггером. Тестирование проводилось на задачах реального применения, включая логическое и математическое рассуждение, а также на создании кода. ## Значимость **Group Query Attack** может использоваться в разных областях, включая защиту от вредоносных атак на языковые модели, анализ их уязвимостей и оценку качества взаимодействия с пользователем. Этот метод имеет потенциал для улучшения обучения моделей, чтобы сделать их более устойчивыми к внешним влияниям. Это может положительно сказаться на безопасности и эффективности использования языковых моделей в реальных приложениях. ## Выводы **Group Query Attack** является эффективным методом для исследования потенциальных сбоев в языковых моделях при их взаимодействии с пользователями. Результаты жизнеспособны для дальнейшего исследования в области улучшения устойчивости моделей к таким атакам. Будущие исследования будут фокусироваться на развитии методов, позволяющих обнаруживать и предотвращать подобные сбои в моделях, а также на исследовании их последствий для различных прикладных задач.
Annotation:
With the widespread use of large language models (LLMs), understanding their potential failure modes during user interactions is essential. In practice, users often pose multiple questions in a single conversation with LLMs. Therefore, in this study, we propose Group Query Attack, a technique that simulates this scenario by presenting groups of queries to LLMs simultaneously. We investigate how the accumulated context from consecutive prompts influences the outputs of LLMs. Specifically, we obse...
ID: 2508.19321v1 cs.CR, cs.AI, cs.CL
Авторы:

Chao Huang, Zefeng Zhang, Juewei Yue, Quangang Li, Chuang Zhang, Tingwen Liu

#### Контекст Безопасность текстовых кLARGE LANGUAGE MODELS (LLMs) является ключевым аспектом их применения в реальном мире. Однако существующие механизмы безопасности LLMs часто оказываются уязвимыми перед тем, как специально создаваемые входные данные (adversarial prompts), которые могут обходить эти меры безопасности. Это происходит в основном из-за того, что большинство механизмов безопасности ориентируются на небольшое количество ататенциональных голов (attention heads), которые обеспечивают безопасность. Исследования показали, что удаление или блокировка этих голов может сильно затруднить надлежащее поведение модели в области безопасности. Это означает, что существующие системы безопасности текстовых моделей зачастую рискуют целиком полагаться на небольшую группу ататенциональных голов, что делает их эффективными целями для атак. #### Метод Мы предлагаем RDSHA (Refusal Direction-based Safety Head Ablation), метод абляции, который использует направление отказа модели (refusal direction) для идентификации голов внимания, которые играют ключевую роль в обеспечении безопасности. Этот метод позволяет определять те головы внимания, которые играют ключевую роль в процессе безопасности. Далее, мы применяем новую стратегию тренировки, AHD (Attention Head Distribution), которая предназначена для распределения тех же безопасных функций по множеству других голов внимания. Это позволяет модели распределять безопасность по более широкой области ататенциональных голов, что уменьшает зависимость от небольшого количества ключевых голов. #### Результаты Мы провести эксперименты, используя ряд различных безопасностных тестов и атак, включая mainstream jailbreak attacks. Мы проверили, насколько эффективно RDSHA может определять ключевые головы внимания, которые отвечают за безопасность. Далее, мы оценили, насколько эффективно AHD может распределять безопасность по более широкому набору голов внимания, и исследовали, насколько эта распределенная безопасность сохраняет эффективность и релевантность модели в реальных сценариях. Наши результаты показали, что AHD успешно распределяет безопасность по большему количеству голов внимания, что улучшает общую безопасность модели и уменьшает вероятность обхода этих механизмов. #### Значимость Улучшенные методы безопасности LLMs имеют большое значение для многих областей, включая образование, финансы, здравоохранение и транспорт. Наша работа демонстрирует, что распределенная безопасность может существенно улучшить надежность и безопасность LLMs в тех случаях, когда атаки на основе adversarial prompts становятся все более сложными
Annotation:
Current safety alignment for large language models(LLMs) continues to present vulnerabilities, given that adversarial prompting can effectively bypass their safety measures.Our investigation shows that these safety mechanisms predominantly depend on a limited subset of attention heads: removing or ablating these heads can severely compromise model safety. To identify and evaluate these safety-critical components, we introduce RDSHA, a targeted ablation method that leverages the model's refusal d...
ID: 2508.19697v1 cs.CR, cs.AI, cs.CL
Авторы:

Shuo Shao, Yiming Li, Yu He, Hongwei Yao, Wenyuan Yang, Dacheng Tao, Zhan Qin

## Контекст Область исследования связана с защитой интеллектуальной собственности в сфере тренировки и использования больших языковых моделей (LLMs). Из-за высокой стоимости тренировки и большого размера этих моделей, они являются ценным интеллектуальным капиталом, который часто становится целью незаконного использования или кражи. Одним из потенциальных способов защиты является **LLM fingerprinting**, метод, основанный на извлечении и сравнении отличительных признаков моделей. Несмотря на свою удобную настройку и применение, этот подход сталкивается с проблемой неоднородного поведения моделей после модификаций, таких как fine-tuning, quantization и др., а также отсутствием стандартных критериев для оценки его эффективности. Мотивацией для данного исследования является развитие критериев отчетности и оценки, чтобы обеспечить надежную защиту LLMs. ## Метод Для решения задачи LLM fingerprinting, авторы предлагают **формальную категоризацию существующих методов** на white-box и black-box подходы. White-box методы предполагают доступ к внутренним параметрам моделей, в то время как black-box методы оперируют только теми выходами модели, которые доступны после ввода запроса. Для оценки эффективности используется **LeaFBench**, первый систематический бенчмарк для LLM fingerprinting. Он содержит 149 вариаций основных моделей, включая как параметр-алтеринговые техники (fine-tuning, quantization), так и без параметров (системные проMPроMPроMPроMPроMPроMPроMPроMPроMPроMPроMPроМпроМки). Бенчмарк покрывает широкий спектр технологий модификации, что дает возможность тестирования различных методов защиты на реальных условиях. ## Результаты Исследования проводились на базе LeaFBench, что позволило сравнить различные параметры моделей и технологии модификации с целью определения сильных и слабых сторон существующих вариантов LLM fingerprinting. Наблюдались различия в производительности различных подходов, в зависимости от типа модификации моделей. Например, black-box методы, основывающиеся на системных проMPроMPроMPроMPроMPроMPроMPроMPроMPроMPроМпроМках, показали высокую устойчивость к некоторым модификациям, но могли быть обойдены при других. Эти результаты позволили выявить ключевые проблемы в защите LLMs и подчеркнуть необходимость развития более универсальных методов. ## Значимость Данный подход может применяться в различных сферах, где необходима защита интеллектуальной собственности в области NLP, включая коммерческие модели LLM. Он предоставляет возможность оценивать и улучшать методы защиты моделей от незаконного использования. Одним из преимуществ является то, что он может быть использован как систематический ме
Annotation:
The broad capabilities and substantial resources required to train Large Language Models (LLMs) make them valuable intellectual property, yet they remain vulnerable to copyright infringement, such as unauthorized use and model theft. LLM fingerprinting, a non-intrusive technique that extracts and compares the distinctive features from LLMs to identify infringements, offers a promising solution to copyright auditing. However, its reliability remains uncertain due to the prevalence of diverse mode...
ID: 2508.19843v1 cs.CR, cs.AI, cs.CL
Показано 31 - 40 из 50 записей