📚 Саммари научных статей из arXiv

Найдено 61 результатов по запросу 'cs.LG, cs.AI, cs.CR' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 How to make Medical AI Systems safer? Simulating Vulnerabilities, and Threats in Multimodal Medical RAG System

2025-08-27

Авторы:

Kaiwen Zuo, Zelin Liu, Raman Dutt, Ziyang Wang, Zhongtian Sun, Yeming Wang, Fan Mo, Pietro Liò

## Контекст Область исследования основывается на развитии Large Vision-Language Models (LVLMs), которые используются в сфере медицинских AI-систем для повышения точности информационной базы с помощью внешней клинической реализации визуально-текстовой реализации. Несмотря на выгоды, эта зависимость создает значительный угрозный потенциал. Одной из основных проблем является нехватка соответствующих методов для обнаружения и анализа уязвимостей в таких системах. Это мотивирует разработку новых подходов к идентификации угроз в медицинских RAG-системах. Например, подобные системы часто используются для работы с клиническими изображениями и отчетами, где необходимо многоуровневый анализ информации. Однако, потенциальные уязвимости в таких системах могут привести к ошибкам, что является критическим для области медицины, где точность критична. Таким образом, необходимо разработка безопасных методов, позволяющих оценивать их работу и улучшать показатели надежности. ## Метод Методология, предложенная в статье, основывается на создании систематического подхода к оценке уязвимостей в медицинских RAG-системах. Авторы предлагают MedThreatRAG, мультимодальный подход, который использует атаки с поддельными изображениями и текстами для проверки системы. Технический подход включает в себя создание симулированной среды, которая воспроизводит реальные условия, где клинические системы позволяют регулярно обновлять свои базы знаний. Одной из ключевых инноваций является Cross-Modal Conflict Injection (CMCI), который вводит несовместимые семантические элементы между изображениями и их отчетами. Это способствует разрушению сквозного анализа и обнаружения, оставаясь достаточно незаметным для стандартных фильтров. Кроме того, в рамках исследования также рассматриваются базовые варианты атак для полноты изображения. Метод позволяет эффективно оценивать уязвимости и разрабатывать подходы к безопасному развитию таких систем. ## Результаты В работе проводились эксперименты на двух клинических наборах данных: IU-Xray и MIMIC-CXR. Оценивались показатели F1-меры для ответов и F1-меры LLaVA-Med-1.5. Результаты показали, что MedThreatRAG снижает показатели F1-меры ответов на до 27.66% и показатели LLaVA-Med-1.5 до 51.36%. Эти результаты демонстрируют существенное разрушение работы системы, когда в ней встраиваются поддельные изображения и тексты. Это подтверждает значительную уязвимость медицинских RAG-систем, даже при небольших внесениях поддельной информации. Эти результаты указывают на необходимость применения более строгих методов подтверждения точности и безопасности таких с

Annotation:

Large Vision-Language Models (LVLMs) augmented with Retrieval-Augmented Generation (RAG) are increasingly employed in medical AI to enhance factual grounding through external clinical image-text retrieval. However, this reliance creates a significant attack surface. We propose MedThreatRAG, a novel multimodal poisoning framework that systematically probes vulnerabilities in medical RAG systems by injecting adversarial image-text pairs. A key innovation of our approach is the construction of a si...

ID: 2508.17215v1 cs.LG, cs.AI, cs.CR

arXiv PDF

📄 Online Incident Response Planning under Model Misspecification through Bayesian Learning and Belief Quantization

2025-08-22

Авторы:

Kim Hammar, Tao Li

#### Контекст В целом, системы онлайн-инцидентного реагирования требуют быстрых и точных решений, даже когда доступна ограниченная или неточная информация. Однако многие существующие рамки поддержки решений для инцидентного реагирования основываются на более-менее точном моделировании системы и инцидента, что ограничивает их практическую значимость. В данной работе будет решено этот вопрос. Мы предлагаем **MOBAL (Misspecified Online Bayesian Learning)**, методологию, которая может корректировать свое представление об инциденте на базе поступающей информации. Эта методика реализуется с помощью **Bayesian Learning (Непрерывное Байесовское Обучение)**, которое позволяет учитывать неизвестные модели в реальном времени. Также, мы используем **Belief Quantization (Квантование Убеждений)**, чтобы упростить моделирование и ускорить работу с инцидентами. #### Метод В целой методологии **MOBAL** включены два основных элемента: **Bayesian Learning (Непрерывное Байесовское Обучение)** и **Belief Quantization (Квантование Убеждений)**. Байесовское обучение используется для постепенного корректирования существующей модели инцидента в зависимости от полученной информации. Это позволяет системе адаптироваться к изменениям во время инцидента. Также, полученная модель злоумышленника (с помощью Байесовского обучения) конвертируется в **Markov Decision Process (Марковский Процесс Решений)**, чтобы упростить вывод решения. Таким образом, мы можем оценить возможные реакции и выбрать эффективный ответ в реальном времени. #### Результаты Мы проводили ряд экспериментов с помощью **CAGE-2 Benchmark**, чтобы проверить эффективность **MOBAL** в сравнении с другими подходами. Мы использовали разные сценарии инцидентов, включая сценарии с неполной информацией. Результаты показали, что **MOBAL** демонстрирует высокую адаптивность и жесткость к ошибкам моделирования. В частности, МОBAL показала более высокую точность в реагировании на инциденты в сравнении с традиционными методами, которые не имеют возможности адаптироваться к изменениям в модели. #### Значимость **MOBAL** может использоваться в различных областях безопасности, таких как охрана сетевых систем, здравоохранение, мониторинг критических инфраструктур. Она не только позволяет быстрее реагировать на инциденты, но и повышает точность решений, даже когда модель не является полностью точной. Особым преимуществом является уменьшение времени отклика и увеличение устойчивости к ошибкам моделирования. Это делает **MOBAL** очень полезным для реагирования на инциденты в реальном времени, где каждая минута может оказаться критичной. #### Выводы Мы доказали, что **MOBAL** является

Annotation:

Effective responses to cyberattacks require fast decisions, even when information about the attack is incomplete or inaccurate. However, most decision-support frameworks for incident response rely on a detailed system model that describes the incident, which restricts their practical utility. In this paper, we address this limitation and present an online method for incident response planning under model misspecification, which we call MOBAL: Misspecified Online Bayesian Learning. MOBAL iterativ...

ID: 2508.14385v1 cs.LG, cs.AI, cs.CR, cs.SY, eess.SY

arXiv PDF

📄 The Application of Transformer-Based Models for Predicting Consequences of Cyber Attacks

2025-08-20

Авторы:

Bipin Chhetri, Akbar Siami Namin

#### Контекст Современная кибербезопасность стала ключевым аспектом защиты информационных систем от внешних и внутренних угроз. Главной проблемой этой области является увеличение числа киберугроз, которые приводят к негативным последствиям для целостности, доступности и конфиденциальности систем. Эти угрозы приводят к потере данных, финансовым убыткам и ухудшению репутации организаций. Особенно актуальным становится использование технологий углубленного обучения (deep learning) для понимания и прогнозирования последствий киберугроз. Одним из наиболее трудных аспектов является классификация последствий атак на основе текстовых описаний. Многие существующие методы имеют ограниченную точность и не могут эффективно обрабатывать большое количество данных. Это делает необходимым развитие более точных и эффективных методов классификации, чтобы обеспечить более эффективную защиту от киберугроз. #### Метод В данном исследовании использована методология глубокого обучения для классификации последствий киберугроз. Модель Bidirectional Encoder Representations from Transformers (BERT) была интегрирована с Hierarchical Attention Networks (HAN) для обеспечения эффективного многометкального классификации. BERT был выбран из-за его способности понимать контекст слов в тексте, что позволяет ему обрабатывать большие текстовые данные с высокой точностью. Hierarchical Attention Networks (HAN) были применены для улучшения классификации на основе вложенных субъектов в тексте. Архитектура модели также включала Convolutional Neural Networks (CNN) и Long Short-Term Memory (LSTM) для сравнения с BERT. Эти модели были обучены на данных из MITRE Common Weakness Enumeration (CWE) database, которая содержит описания различных киберугроз и их последствий. #### Результаты В ходе экспериментов были сравнены результаты BERT, HAN, CNN и LSTM на данных CWE. BERT достиг точности $0.972$ при многометкальной классификации, что значительно превышает результаты остальных моделей. HAN показал лучшие результаты на определенных многометкальных тегах по сравнению с CNN и LSTM, но не достиг той же универсальной точности, что и BERT. CNN и LSTM, в свою очередь, показали нижний уровень точности и не смогли удовлетворить более сложные задачи классификации в области кибербезопасности. Эти результаты подтверждают, что BERT является более эффективной моделью для прогнозирования последствий киберугроз. #### Значимость Результаты этого исследования имеют большое значение для кибербезопасности и индустрии. BERT может быть использован для автоматизации процессов классификации киберугроз, что существенно сократит время, затрачиваемое на анализ текстовых данных. Это позволит специалистам по бе

Annotation:

Cyberattacks are increasing, and securing against such threats is costing industries billions of dollars annually. Threat Modeling, that is, comprehending the consequences of these attacks, can provide critical support to cybersecurity professionals, enabling them to take timely action and allocate resources that could be used elsewhere. Cybersecurity is heavily dependent on threat modeling, as it assists security experts in assessing and mitigating risks related to identifying vulnerabilities a...

ID: 2508.13030v1 cs.LG, cs.AI, cs.CR

arXiv PDF

📄 Unlearning at Scale: Implementing the Right to be Forgotten in Large Language Models

2025-08-19

Авторы:

Abdullah X

## Контекст Статья основывается на рассмотрении права на забыть (обязательств по GDPR Арт. 17) в отношении больших моделей языка. У самого права на забыть существует сложная многоугольниковая структура, которая включает в себя юридические, этические, технические и логические аспекты. Для реализации этого права в системах машинного обучения, особенно в больших моделях языка, требуется новая архитектура, которая позволит удалять данные, соответствующие запросу, без повреждения системы или ухудшения ее производительности. Данная статья поставляет подробное рассмотрение технических проблем и предлагает новые решения для обеспечения эффективного и жесткого "учтения" информации в моделях языка. ## Метод Техническая методология включает в себя определение логической архитектуры для учтения информации в больших моделях языка. Система работает на основе загрузки и репликации тренировочных процессов, которые позволяют удалять выбранные данные без влияния на остальные части модели. Для этого используется детерминированная структура обучения, включающая запись минимальных записей для каждого микро-батча (семантические идентификаторы, RNG-седы, значения обучения и шаг алгоритма оптимизации). Метод предлагает два типа решений: (i) полный откат новых шагов с помощью микро-чекпоинтов или периодических инкрементных записей, (ii) удаление адаптеров в контексте когорт, если основная модель заморожена. Эти технологии включают специальные механизмы, такие как курватура-направленный анти-обновление, чтобы обеспечить точность и эффективность. ## Результаты Использовались упрощенные тестовые данные для проверки функциональности нового метода. Экспериментальные результаты показали, что модель может удалять выбранные данные без сколов в производительности или других параметрах системы. Бит-идентичность параметров модели и оптимизатора была достигнута в случае, когда методы были применены с предварительными условиями. Дополнительно были отчеты о загрузке и задержке в течение всего процесса обучения. Эти результаты подтверждают, что метод может обеспечить соответствие запросам "удаления" в больших моделях языка без известных побочных эффектов. ## Значимость Важность данной работы заключается в том, что она предоставляет новую модель для обеспечения права на забыть в системах машинного обучения. Она может быть применена в различных областях, включая защиту персональных данных, обеспечение конфиденциальности и юридическое соответствие. Этот подход также может способствовать развитию новых этических стандартов в искусственно

Annotation:

We study the right to be forgotten (GDPR Art. 17) for large language models and frame unlearning as a reproducible systems problem. Our approach treats training as a deterministic program and logs a minimal per-microbatch record (ordered ID hash, RNG seed, learning-rate value, optimizer-step counter, and accumulation boundary). Under a pinned stack and deterministic kernels, replaying the training tail while filtering only the forget closure yields the same parameters as training on the retain s...

ID: 2508.12220v1 cs.LG, cs.AI, cs.CR, I.2.6; I.2.7

arXiv PDF

📄 Decentralized Weather Forecasting via Distributed Machine Learning and Blockchain-Based Model Validation

2025-08-15

Авторы:

Rilwan Umar, Aydin Abadi, Basil Aldali, Benito Vincent, Elliot A. J. Hurley, Hotoon Aljazaeri, Jamie Hedley-Cook, Jamie-Lee Bell, Lambert Uwuigbusun, Mujeeb Ahmed, Shishir Nagaraja, Suleiman Sabo, Weaam Alrbeiqi

#################### ## Контекст #################### Погодные прогнозы являются ключевым фактором для снижения рисков при стихийных бедствиях, оптимизации сельского хозяйства и эффективного управления ресурсами. Традиционные системы прогнозирования погоды основываются на централизованных моделях, которые сталкиваются с проблемами, такими как возможность атак с высокой стоимостью, ограниченная масштабируемость и уязвимость к отказам в работе. Эти недостатки становятся все более актуальными, если принимать во внимание рост количества данных и требования к безопасности. Мы предлагаем распределенную модель прогнозирования погоды, использующую методы машинного обучения и блокчейн-технологии для обеспечения безопасности, прозрачности и устойчивости. #################### ## Метод #################### Мы предложили фреймворк, в котором реализована Федеративная Лингвистика (FL) для обучения моделей с учетом приватности пользователей, и блокчейн-технологии для верификации и обеспечения достоверности моделей. FL позволяет обучать модели на распределенных данных без передачи их в общую сеть, что улучшает безопасность и снижает трафик. Блокчейн Ethereum используется для прозрачного проверки моделей с помощью доказательств взаимного безопасности. Для эффективного хранения данных был использован Interplanetary File System (IPFS). Для того, чтобы повысить уровень доверия к моделям, мы внедрили репутационную систему голосования. #################### ## Результаты #################### Мы провели эксперименты с данными погоды, собранными с различных погодных станций. Модели FL были обучены на данных нескольких участников, а затем их модели были проверены с помощью Ethereum. Мы сравнили наши результаты с традиционными моделями и получили значительное повышение точности прогноза и уменьшение времени обработки. Блокчейн повысил доверие к моделям, а репутационная система улучшила выбор наиболее точных моделей. Использование IPFS позволило эффективно хранить и получать данные. #################### ## Значимость #################### Наша модель является значительным развитием для безопасного и эффективного прогнозирования погоды. Она может использоваться в сельском хозяйстве, страховании, энергетической отрасли и других отраслях, где точность прогнозов и безопасность критически важны. Модель обеспечивает улучшение производительности, уменьшает риск отказа в работе и обеспечивает прозрачность в данных и моделях, что делает ее привлекательной для широкого круга пользователей. #################### ## Выводы #################### Мы успешно разработали распределенную модель прогнозирования погоды, использующую FL и блокчейн-технологии. Этот подход демонстрирует значительное улучшение точности прогнозов, безопасности и м

Annotation:

Weather forecasting plays a vital role in disaster preparedness, agriculture, and resource management, yet current centralized forecasting systems are increasingly strained by security vulnerabilities, limited scalability, and susceptibility to single points of failure. To address these challenges, we propose a decentralized weather forecasting framework that integrates Federated Learning (FL) with blockchain technology. FL enables collaborative model training without exposing sensitive local da...

ID: 2508.09299v2 cs.LG, cs.AI, cs.CR

arXiv PDF

📄 Exact Verification of Graph Neural Networks with Incremental Constraint Solving

2025-08-15

Авторы:

Minghao Liu, Chia-Hsuan Lu, Marta Kwiatkowska

#### Контекст Graph neural networks (GNNs) широко используются в высокорисковых приложениях, таких как мониторинг финансовых операций и медицинские диагностические системы. Однако они остаются подверженными адверсарным атакам, модифицирующим входные данные или структуру графа. Даже небольшие изменения могут привести к непредсказуемому поведению сети. Несмотря на развитие методов, обеспечивающих адверсарную устойчивость, многие не поддерживают законность (soundness) и полноту (completeness), необходимых для надежного проверки. Это открывает проблему в подтверждении достоверности результатов GNNs при работе с существенными задачами. #### Метод Мы предлагаем метод полной проверки GNNs на устойчивость к адверсарным взаимодействиям с графом, направленным на узлы и ребра. Метод основывается на технике уточнения ограничений (bound tightening) для эффективного решения ограниченных задач устойчивости. Он поддерживает три вида агрегации в сообщениях — сумма, максимум и среднее — которые широко используются в сообщениях GNNs. Метод реализован в виде программного решения с использованием преимуществ развития существующих средств для упрощения решения сложных задач. #### Результаты Мы проводили эксперименты на двух стандартных датасетах (Cora и CiteSeer) и двух датасетах реальных данных (Amazon и Yelp), связанных с мошенничеством. Наш метод проверял GNNs на устойчивость к адверсарным изменениям в графе, включая добавление и удаление ребер. Результаты показывают, что наши решения эффективно выполняются на небольших датасетах и выдают более точные результаты в сравнении с другими подходами. Этот подход позволяет оптимизировать процесс проверки и обеспечить надежные результаты для работы GNNs в жизненных ситуациях. #### Значимость Наш метод может быть применен в сферах, где GNNs требуют доказательства их безопасности и точности, таких как мошенничество, безопасность систем, технологии распознавания образов. Он предлагает высокую точность и эффективность, что может привести к улучшению доверия к GNNs в высокоуровневых приложениях. Будущие работы будут направлены на расширение метода для более сложных моделей GNNs и улучшение поддержки агрегации. #### Выводы Мы представили метод для точной проверки GNNs с помощью уточнения ограничений для устойчивости к адверсарным изменениям. Этот метод поддерживает три вида агрегации (сумма, максимум и среднее) и показывает высокую эффективность на нескольких датасетах. Это подтверждает возможность повысить доверие к GNNs в приложениях с высоким риском. Будущие работы будут нацелены на расширение стабильности и гибко

Annotation:

Graph neural networks (GNNs) are increasingly employed in high-stakes applications, such as fraud detection or healthcare, but are susceptible to adversarial attacks. A number of techniques have been proposed to provide adversarial robustness guarantees, but support for commonly used aggregation functions in message-passing GNNs is still lacking. In this paper, we develop an exact (sound and complete) verification method for GNNs to compute guarantees against attribute and structural perturbatio...

ID: 2508.09320v1 cs.LG, cs.AI, cs.CR

arXiv PDF

📄 Oblivionis: A Lightweight Learning and Unlearning Framework for Federated Large Language Models

2025-08-14

Авторы:

Fuyao Zhang, Xinyu Yan, Tiantong Wu, Wenjie Li, Tianxiang Chen, Yang Cao, Ran Yan, Longtao Huang, Wei Yang Bryan Lim, Qiang Yang

## Контекст Large Language Models (LLMs) широко используются в сегменте машинного обучения для решения различных задач, от генерации текста до анализа данных. Одной из особенностей их развития является использование Federated Learning (FL) для оптимизации моделей с применением закрытых, задатковых данных. Это позволяет улучшить модели, не теряя приватность пользователей. Однако, несмотря на эффективность FL, существуют проблемы, связанные с нормативным соответствием (например, GDPR), который требует удаления конкретных данных по запросу. Избавление от такой информации в системах FL является сложной задачей из-за распределенной структуры, жестких требований к приватности и хаотичности взаимодействия клиентов. Из этого порождается необходимость в разработке специальных методов для регулярного удаления данных в моделях LLMs. ## Метод Oblivionis предлагает уникальный подход к обучению и удалению в системах FL. Он рассматривает обучение и удаление как два связанных целевые задачи, которые могут быть решены одновременно. Методология включает в себя шесть алгоритмов FL и пять механизмов удаления данных, которые оцениваются в рамках одной архитектуры. Архитектура Oblivionis гармонично объединяет эти процессы, используя техники градиентного оптимизации и адаптивных методов для обеспечения эффективного удаления данных. Выбор алгоритмов и подходов производится с учетом уровня затрат, эффективности и регулируемости. ## Результаты Набор экспериментов был проведен для оценки эффективности Oblivionis. Использовались различные типы данных, включая тексты и модели с разным уровнем нагрузки. Основным показателем стала степень "забытости" модели после удаления данных и сохранение ее качества. Результаты показали, что Oblivionis превосходит локальное обучение по параметрам быстродействия и удаления данных. Дополнительная сравнительная таблица, в которой представляются результаты разных алгоритмов, демонстрирует преимущества Oblivionis в сравнении с другими подходами. ## Значимость Oblivionis может применяться в сферах, где важно соблюдение юридических норм, таких как GDPR. Его особенностью является возможность выборочного удаления данных без существенного потери модельной эффективности. Этот подход может использоваться в системах с большим объемом пользовательских данных, таких как социальные сети, здравоохранение и финансовые системы. Важно отметить, что Oblivionis не только повышает уровень доверия к моделям, но и упрощает требования к управлению данными. ## Выводы Oblivionis представляет собой продвинутый подход к обучению и удалению данных в федеративных LLM-системах. Он успешно решает про

Annotation:

Large Language Models (LLMs) increasingly leverage Federated Learning (FL) to utilize private, task-specific datasets for fine-tuning while preserving data privacy. However, while federated LLM frameworks effectively enable collaborative training without raw data sharing, they critically lack built-in mechanisms for regulatory compliance like GDPR's right to be forgotten. Integrating private data heightens concerns over data quality and long-term governance, yet existing distributed training fra...

ID: 2508.08875v1 cs.LG, cs.AI, cs.CR

arXiv PDF

📄 PROPS: Progressively Private Self-alignment of Large Language Models

2025-08-13

Авторы:

Noel Teku, Fengwei Tian, Payel Bhattacharjee, Souradip Chakraborty, Amrit Singh Bedi, Ravi Tandon

## Контекст В последние годы искусственные нейронные сети, особенно большие языковые модели (LLMs), получили широкое распространение в различных областях, от применений в бизнесе до образовательных систем. Однако развитие этих моделей часто зависит от корректного выравнивания поведения модели в соответствии с человеческими ценностями и общественными нормами. Это процесс, называемый "alignment", требует использования человеческого вклинения в форме отзывов и фидбека, чтобы обучить модель подходить к решениям в соответствии с этими нормами. Однако, существующие методы, такие как Differentially Private SGD (DP-SGD), стремятся защитить чувствительные данные индивидуальных лейблеров, но это может привести к значительному снижению моделируемой модели. Исследователи сталкиваются с мотивацией для более балансированных подходов, которые не только защищают чувствительные данные, но и сохраняют высокую модельную эффективность. ## Метод Мы предлагаем PROPS (PROgressively Private Self-alignment), многоступенчатый фреймворк, который обеспечивает высокую личностную конфиденциальность через применение прогрессивного алгоритма самоориентированного выравнивания. Этот метод использует модели, которые были выравнены в предыдущих этапах, в качестве новых данных для тренировки в последующих этапах. Это позволяет уменьшить необходимость в человеческом вклинении на последних этапах алгоритма. Мы также применяем техники, такие как градиентный шум и защищенные методы обучения, для обеспечения конфиденциальности на уровне предпочтений. Архитектура PROPS включает в себя несколько моделей, которые обучаются в закрытом режиме и обмениваются данными для улучшения качества и конфиденциальности в целом. ## Результаты Мы провели эксперименты с несколькими моделями, такими как Pythia и GPT, и использовали данные из баз данных, таких как AlpacaEval, Anthropic HH-RLHF, и truthy-dpo-v0.1. Наши результаты показали, что PROPS может достигать до 3 раза большей производительности в сравнении с DP-SGD и 2.5 раз большей производительности в сравнении с Randomized Response (RR) на одном и том же уровне конфиденциальности. Эти результаты подтверждают, что PROPS обеспечивает высокую конфиденциальность при улучшении моделируемой эффективности в сравнении с существующими методами. Мы также проверили, что PROPS сохраняет высокую точность в поддержке человеческих ценностей в диапазоне разных сценариев и задач. ## Значимость Предлагаемый подход PROPS имеет широкие области применения в области юмора, защиты частных данных и социальных сетей, где необходимо соблюдать чувствительную конфиденциальность. Он предлагает преимущества в повышении качества результатов модели, у

Annotation:

Alignment is a key step in developing Large Language Models (LLMs) using human feedback to ensure adherence to human values and societal norms. Dependence on human feedback raises privacy concerns about how much a labeler's preferences may reveal about their personal values, beliefs, and personality traits. Existing approaches, such as Differentially Private SGD (DP-SGD), provide rigorous privacy guarantees by privatizing gradients during fine-tuning and alignment but can provide more privacy th...

ID: 2508.06783v1 cs.LG, cs.AI, cs.CR, cs.IT, math.IT

arXiv PDF

📄 Who's the Evil Twin? Differential Auditing for Undesired Behavior

2025-08-13

Авторы:

Ishwar Balappanawar, Venkata Hasith Vattikuti, Greta Kintzley, Ronan Azimi-Mancel, Satvik Golechha

## Контекст Область исследования сосредоточена на обнаружении нежелательного поведения в нейронных сетях, в частности в контексте моделей глубокого обучения. Несмотря на их потрясающие возможности, нейронные сети часто являются непрозрачными и могут внедрять нежелательное поведение, которое не очевидно и может быть использовано атакующими. Эта проблема не только становится важной с точки зрения безопасности, но и влияет на доверие к алгоритмам, используемым в критически важных областях, таких как здравоохранение, финансы и автоматизированные системы принятия решений. Существующие методы обнаружения нежелательного поведения часто имеют ограниченную эффективность, особенно при недостаточной информации о нежелательном поведении. В этой статье предлагается альтернативный подход, основанный на игре между двумя командами: красная команда настраивает модели с и без нежелательного поведения, тогда как синюха команда пытается обнаружить подозрительную модель с ограниченной информацией. Этот подход может обеспечить более точные результаты в сравнении с традиционными методами. ## Метод Предлагаемая методология основывается на использовании игры между красной и синюхой командами. Красная команда обучает две почти идентичные модели: одну на основе безопасных данных, а другую с внедренным нежелательным поведением. Обе модели должны оказаться почти неразличимыми на безопасном датасете. Задача синюхой команды — определить модель с нежелательным поведением, используя различные методы аудита. Набор этих методов включает гауссовский шум, модельные различия, интегрированные производные, а также атаки с адверсарным вводом. Эти методы были изучены для моделей типа CNN, а затем протестированы с разным уровнем признаков, предоставленных красной командой. Для повышения гибкости исследования, методы были также применены к моделям типа LLM, где применялись стандартные методы ввода запросов или ввода с указанием нежелательного распределения. ## Результаты Эксперименты показали, что атаки с адверсарным вводом демонстрируют высокую точность в определении модели с нежелательным поведением при достаточном уровне подсказок (100% правильных прогнозов). Другие методы, такие как гауссовский шум и модельные различия, показали менее впечатляющие результаты, но все равно оказались полезными в определенных сценариях. Для моделей типа LLM, результаты были более смешанными, но приемлемыми, особенно когда были предоставлены указания о нежелательном распределении. На основе этих результатов, авторы подчеркивают, что адверсарные методы могут являться кл

Annotation:

Detecting hidden behaviors in neural networks poses a significant challenge due to minimal prior knowledge and potential adversarial obfuscation. We explore this problem by framing detection as an adversarial game between two teams: the red team trains two similar models, one trained solely on benign data and the other trained on data containing hidden harmful behavior, with the performance of both being nearly indistinguishable on the benign dataset. The blue team, with limited to no informatio...

ID: 2508.06827v1 cs.LG, cs.AI, cs.CR

arXiv PDF

📄 Membership Inference Attack with Partial Features

2025-08-12

Авторы:

Xurun Wang, Guangrui Liu, Xinjie Li, Haoyu He, Lin Yao, Weizhe Zhang

#### Контекст Машинное обучение (ML) широко используется в различных областях, но эти модели чувствительны к атакам на членство (Membership Inference Attack, MIA). Эта атака призвана определить, был ли конкретный пример включен в обучающую выборку модели. Основные подходы к MIA предполагают, что атакующий агент имеет доступ ко всем функциям (признакам) целевого примера. Однако в реальной жизни часто есть ситуации, когда доступны только частичные данные. Это ограничивает эффективность существующих методов. В данной работе мы исследуем сценарий, когда атакующий имеет доступ только к части признаков целевого примера, и определяем это проблему как Partial Feature Membership Inference (PFMI). #### Метод Мы предлагаем фреймворк MRAD (Memory-guided Reconstruction and Anomaly Detection), который работает в двух этапах. В первом этапе MRAD оптимизирует неизвестные признаки, минимизируя потери модели. Во втором этапе он оценивает отклонение реконструированного примера от распределения обучающих данных с помощью аномализационных методов. Этот подход позволяет атакующему использовать частичные данные для определения, был ли пример использован в обучении модели. Мы используем широкий спектр техник аномализации, таких как Autoencoder, PCA, и t-SNE, для оценки отклонений. #### Результаты Мы провели эксперименты на STL-10 и других датасетах, в том числе с отсутствующими частью признаков. На STL-10 MRAD показал высокую эффективность, достигнув AUC 0.6 даже при отсутствии 40% признаков. Мы также проверили совместимость MRAD с разными методами аномализации, такими как t-SNE и Autoencoder, и показали, что MRAD работает эффективно в разных условиях. #### Значимость Результаты MRAD открывают новые возможности для атак на членство, даже в ситуациях, когда атакующий имеет неполные данные. Это делает PFMI значимой для практических приложений, где атакующий может иметь доступ только к части признаков, таких как мониторинг безопасности и защита приватности. Наши результаты также показывают, что MRAD может быть применен с разными техниками аномализации, что делает его гибким и универсальным. #### Выводы Мы успешно разработали MRAD, новый подход к Partial Feature Membership Inference. Наши эксперименты показали, что MRAD эффективен на разных датасетах, даже при отсутствии части признаков. Дальнейшие исследования будут направлены на улучшение MRAD, а также на исследование потенциальных защитных методов против этой атаки.

Annotation:

Machine learning models have been shown to be susceptible to membership inference attack, which can be used to determine whether a given sample appears in the training data. Existing membership inference methods commonly assume that the adversary has full access to the features of the target sample. This assumption, however, does not hold in many real-world scenarios where only partial features information is available, thereby limiting the applicability of these methods. In this work, we study ...

ID: 2508.06244v1 cs.LG, cs.AI, cs.CR

arXiv PDF

1
2
4
5
6
7

Показано 51 - 60 из 61 записей