📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня
Авторы:

Abu Shafin Mohammad Mahdee Jameel, Shreya Ghosh, Aly El Gamal

## Контекст Научное исследование посвящено развитию систем обнаружения вторжений (IDS) с использованием глубокого обучения. Основная задача заключается в создании универсальной системы, которая может обнаруживать неизвестные атаки, используя знания о известных. Эта проблема возникает из-за трудности адаптации ISD к новым типам атак, а также из-за необходимости повышения эффективности и скорости обработки данных. Выбор глубокого обучения обоснован его потенциалом в обнаружении сложных зависимостей в данных. Таким образом, основная мотивация заключается в развитии метода, который мог бы обеспечить высокую трансферируемость и точность обнаружения в различных условиях и сетевых устройствах. ## Метод Разработанная система основывается на применении сверточных нейронных сетей (CNN) для определения аномалий в сети. Для повышения трансферируемости используются два вспомогательных алгоритма. Первый — **two-step data pre-processing** — включает в себя этапы удаления шумов и статистического трансформирования данных для улучшения обнаруживаемости аномалий. Второй — **Block-Based Smart Aggregation (BBSA)** — представляет собой алгоритм, который оптимизирует связи между различными блоками сети, увеличивая поток передаваемой информации и улучшая общую точность. Метод был проверен на различных датасетах, чтобы продемонстрировать его универсальность и трансферируемость. ## Результаты Исследование включало эксперименты на нескольких датасетах, включая UNSW-NB15 и CICIDS2017. Результаты показали, что разработанная система обеспечивает высокие ценности трансферируемости и эффективности. Обнаружены внутренние аномалии с достаточно высокой точностью, в то же время удалось подтвердить трансферируемость системы между разными датасетом. Особое внимание уделялось оценке точности и скорости работы, которые были сравнены с другими похожими моделями. Оценка трансферируемости была проведена с помощью метрик, показывающих успешность обнаружения аномалий на незнакомых данных. ## Значимость Разработанная система имеет широкий спектр возможных применений в сетевой безопасности. Она может применяться для защиты различных устройств в сети от вторжений, включая домашние сети, организационные сети и облачные сервера. Преимущества заключаются в высокой точности обнаружения, выраженной трансферируемости и скорости работы. Возможно, что в будущем такие системы могут стать стандартом для безопасности сетей, уменьшая вред атак, таких как DDoS, Man-in-the-Middle и другие. ## Выводы Разработанная система демонстрирует повышенную трансферируемость и эффективност
Annotation:
Intrusion Detection Systems (IDS) are a vital part of a network-connected device. In this paper, we develop a deep learning based intrusion detection system that is deployed in a distributed setup across devices connected to a network. Our aim is to better equip deep learning models against unknown attacks using knowledge from known attacks. To this end, we develop algorithms to maximize the number of transferability relationships. We propose a Convolutional Neural Network (CNN) model, along wit...
ID: 2508.09060v1 cs.CR, cs.LG, cs.NI, eess.SP
Авторы:

Ngoc N. Tran, Anwar Said, Waseem Abbas, Tyler Derr, Xenofon D. Koutsoukos

#### Контекст Графовые классификаторы в области обнаружения Android-малвирусов показали высокую точность — более 94% на стандартных датасетах. Однако они сталкиваются с существенными проблемами при работе с неизвестными вариантами малвирусов одной и той же семьи: в этом случае точность может падать до 45%. Это указывает на ограничения существующих подходов: они часто не удается ловко ловить глубокие семантические закономерности. Наша мотивация заключается в том, чтобы улучшить обнаружение малвирусов, оперируя не только структурой графов, но и дополнительной семантической информацией. #### Метод Мы предлагаем фреймворк, который дополняет графы вызовов функций семантическими признаками, включая метаданные функций и коды, полученные с помощью больших языковых моделей (LLM). Наш подход адаптивен и может работать в условиях неполного доступа к данным. Мы создали два новых бенчмарка: MalNet-Tiny-Common (для оценки кросс-семейной общности) и MalNet-Tiny-Distinct (для оценки эволюции угроз). Эти датасеты были построены на основе группировки малвирусов по семейным признакам. #### Результаты Наши эксперименты показали, что добавление семантической информации повышает точность классификации на 8% при работе с распределительными перестановками. Мы также проверили нашу модель на устойчивости к неизвестным вариантам, и она показала стабильное улучшение в результатах в разных условиях. Интеграция с адаптивными методами дала дополнительные пользы, повысив общую надежность. #### Значимость Фреймворк может применяться в области обнаружения малвирусов, где необходима высокая устойчивость к изменению распределения данных. Он позволяет улучшить производительность существующих моделей, особенно в условиях эволюции угроз и кросс-семейных сценариев. Этот рабочий подход имеет потенциал для создания масштабируемых и надежных систем обнаружения малвирусов в будущем. #### Выводы Мы доказали, что добавление семантической информации значительно улучшает устойчивость классификаторов к распределенным перестановкам. В дальнейшем нам нужно расширить датасеты и проверить модели на более сложных сценариях. Это будет направлено на повышение надежности и точности будущих систем обнаружения малвирусов.
Annotation:
Graph-based malware classifiers can achieve over 94% accuracy on standard Android datasets, yet we find they suffer accuracy drops of up to 45% when evaluated on previously unseen malware variants from the same family - a scenario where strong generalization would typically be expected. This highlights a key limitation in existing approaches: both the model architectures and their structure-only representations often fail to capture deeper semantic patterns. In this work, we propose a robust sem...
ID: 2508.06734v1 cs.CR, cs.LG
Авторы:

Zhihao Yao, Yuxuan Gu, Xiachong Feng, Weitao Ma, Bo Li, Xiaocheng Feng

## Контекст Сохранение приватности в постепенно развивающемся мире искусственного интеллекта является ключевым аспектом, особенно при развитии сложных технологий, таких как БоLТ (Retrieval-Augmented Generation). Однако существуют серьезные проблемы, такие как риск утечки корпоративных данных при использовании данных с рабочего стола. Многие ранее предложенные методы, такие как очистка данных, часто приводят к существенной потере качества модели и неэффективности в реальных сценариях. Добавляется к этому недостаток в общедоступных данных для отладки и оценки этих систем. Таким образом, есть необходимость в развитии новых подходов, которые могут эффективно обеспечить приватность без нарушения качества модели. ## Метод Метод предложенной системы, названной ABack (Adaptive Backtracking), основывается на использовании Hidden State Model (HSM) для определения и корректировки выходных данных модели. Он осуществляется без необходимости переобучения модели. Благодаря этому, модель может эффективно предотвратить утечки данных, оставаясь эффективной в своих основных функциях. Также был разработан новый датасет PriGenQA, охватывающий сценарии применения в сферах здравоохранения и финансов. Для того чтобы оценивать показатели модели в условиях атак, был предложен новый сильный адаптивный атакующий алгоритм с использованием Group Relative Policy Optimization, который моделирует более реалистичные угрозы. ## Результаты Используя PriGenQA, проведены ряд экспериментов, сравнивая ABack с другими популярными подходами, такими как sanitization методы. Результаты показали, что ABack достигает до 15% более высокого показателя privacy utility (по отношению к риску утечки данных), сравниваясь с базовыми методами, при этом не приводя к снижению качества модели. Кроме того, система продемонстрировала способность эффективно обнаруживать и корректировать утечки данных в различных контекстах, не теряя в целостности выполнения задач. ## Значимость ABack может быть применен в широком спектре областей, где требуется обеспечение приватности данных, таких как здравоохранение, финансы и другие секретные области. Он предлагает значительные преимущества по сравнению с базовыми методами, особенно в тех случаях, когда требуется обеспечение приватности без значительного ущерба качеству модели. Это может привести к новым возможностям в развитии безопасных и эффективных моделей, использующих Retrieval-Augmented Generation. ## Выводы ABack представляет собой прорыв в области приватности для моделей БоLТ, обеспечивая эффективное решение проблемы утечки данных без потерь в эффективности. Он открывает новые возможности для развития безопасных и приватных моделей, а также может стать базой для дальнейши
Annotation:
The preservation of privacy has emerged as a critical topic in the era of artificial intelligence. However, current work focuses on user-oriented privacy, overlooking severe enterprise data leakage risks exacerbated by the Retrieval-Augmented Generation paradigm. To address this gap, our paper introduces a novel objective: enterprise-oriented privacy concerns. Achieving this objective requires overcoming two fundamental challenges: existing methods such as data sanitization severely degrade mode...
ID: 2508.06087v1 cs.CR, cs.LG, stat.ML
Авторы:

Thomas Michel, Debabrota Basu, Emilie Kaufmann

## Контекст Исследование ориентировано на развитие методов для секвенциальных тестов двух простых гипотез в условиях защиты частных данных. Добавление конфиденциальности в последовательные алгоритмы тестирования представляет вызов из-за того, что сохранение частности данных может привести к снижению точности и эффективности. Большая часть существующей работы рассматривает только статические аппроксимации тестов, не учитывая момент принятия решения. В этой работе авторы фокусируются на пересмотре классического подхода Walda Sequential Probability Ratio Test (SPRT) для последовательного тестирования двух гипотез с применением концепций конфиденциальности. Целью является разработка алгоритма, который может быть приближено оптимальным образом настроен для соответствия заданной конфиденциальности и ошибкам типа I и II. ## Метод Авторы предлагают DP-SPRT, слой, который может настраиваться для достижения желаемых ошибок типа I и II и уровней конфиденциальности. Этот метод основывается на механизме OutsideInterval, который определяет конец теста, когда результаты последовательных запросов выходят за пределы заданного интервала. Механизм OutsideInterval улучшает надёжность по сравнению с более простыми методами, такими как AboveThreshold. Алгоритм DP-SPRT принимает последовательность запросов, обрабатывает их с использованием OutsideInterval, и принимает решение о принятии решения о гипотезе на основе этих запросов. Данный подход позволяет повысить точность и эффективность в сравнении с другими приближёнными методами. ## Результаты В работе приведены универсальные верхние оценки на ошибки и сложность выборки DP-SPRT, которые могут применяться в различных ситуациях, в зависимости от требований к конфиденциальности. Эксперименты проводились с двумя различными типами шума – Laplace (применение чистого Дифференциального Защищённого Алгоритма) и Гауссовский (применение Rényi Differential Privacy). В первом случае показано, что DP-SPRT приближенно оптимален при малых значениях ошибок типа I и II и близких гипотезах. Во втором случае демонстрируется надежность и эффективность DP-SPRT в условиях Rényi Differential Privacy. Также проводился экспериментальный анализ, подтвердив хорошую практическую эффективность алгоритма. ## Значимость DP-SPRT может быть использован в области прикладной статистики, тестирования гипотез и анализа данных, где необходима конфиденциальность. Основные преимущества заключаются в улучшении точности и эффективности по сравнению с другими приближёнными методами, а также в гибкости настройки для различных задач. Этот подход может иметь значительное влияние на области, где применение тестов на основе последовательности является ключевым, таких как ме
Annotation:
We revisit Wald's celebrated Sequential Probability Ratio Test for sequential tests of two simple hypotheses, under privacy constraints. We propose DP-SPRT, a wrapper that can be calibrated to achieve desired error probabilities and privacy constraints, addressing a significant gap in previous work. DP-SPRT relies on a private mechanism that processes a sequence of queries and stops after privately determining when the query results fall outside a predefined interval. This OutsideInterval mechan...
ID: 2508.06377v1 stat.ML, cs.CR, cs.LG, math.ST, stat.TH
Авторы:

Shreya Meel, Mohamed Nomeir, Pasan Dissanayake, Sanghamitra Dutta, Sennur Ulukus

## Контекст Современные машинные обучающие модели часто используются в высокогранных приложениях, таких как финансы, здравоохранение и реклама. Однако эти модели часто являются "черными ящиками", что создает необходимость в транспарентности и объясняемости их решений. Одним из способов обеспечить объясняемость является предоставление **контрфактных выводов** — хорошо понятных, интуитивных объяснений, помогающих пользователю понять, почему модель пришла к конкретному выводу. Однако предоставление контрфактных выводов также создает риски для конфиденциальности: обе стороны — пользователь и институция — могут потерять конфиденциальную информацию. В данной работе нас интересует конфиденциальность пользователя, который хочет получить контрфактные выводы без раскрытия своего признакового вектора институции. Наша цель — разработать методы, обеспечивающие информационно-теоретическую конфиденциальность пользователя, при этом поддерживая высокую точность результатов. ## Метод Работа предлагает развитие фреймворка для **приватного контрфактного поиска (Private Counterfactual Retrieval, PCR)**. Методология основывается на идее шифрования признакового вектора пользователя и его защиты от институции. 1. **Основная идея**: Используется **криптографический механизм**, позволяющий институции проводить поиск в базе данных без знания того, какой именно вектор использовался пользователем. 2. **Расширения**: Базовый метод был расширен для учета **неизменяемых признаков** (например, персональных данных, которые не могут быть изменены). Для этого разработаны механизмы, позволяющие учитывать неизменяемые признаки, при этом сохраняя конфиденциальность всей признаковой модели. 3. **Преобразования**: Включена возможность учитывать **предпочтения пользователя** в преобразовании признаков, чтобы получить более действительные и применимые контрфактные выводы. На каждом этапе разработаны меры, позволяющие оценивать уровень конфиденциальности и точности результатов. ## Результаты Для оценки эффективности разработанных схем проведены эксперименты на синтетических и реальных данных. Были измерены: - **Конфиденциальность**: Оценка уровня информационно-теоретической защиты признаков пользователя. - **Точность**: Успешность найденных контрфактных выводов по сравнению с базовыми схемами. - **Затраты ресурсов**: Время и вычислительные ресурсы, необходимые для обработки запроса. Результаты показали: - Улучшение конфиденциальности в сравнении с базовым подходом. - Уменьшение утечки информации о базе данных инсти
Annotation:
Transparency and explainability are two important aspects to be considered when employing black-box machine learning models in high-stake applications. Providing counterfactual explanations is one way of catering this requirement. However, this also poses a threat to the privacy of the institution that is providing the explanation, as well as the user who is requesting it. In this work, we are primarily concerned with the user's privacy who wants to retrieve a counterfactual instance, without re...
ID: 2508.03681v1 cs.IT, cs.CR, cs.LG, cs.NI, eess.SP, math.IT
Авторы:

Jiajun Gu, Yuhang Yao, Shuaiqi Wang, Carlee Joe-Wong

#### Контекст Проблематика обеспечения конфиденциальности в распределенных фреймворках тренировки, таких как федеративное обучение (federated learning), становится все более актуальной с ростом применения машинного обучения в сентивные данные. Градиентные нападения (gradient inversion attacks) являются одной из наиболее критических угроз, позволяя злоумышленникам воссоздать исходные данные тренировки, используя только связные градиенты, передаваемые между клиентами и сервером. Существующие методы, такие как гомоморфная шифровка, обеспечивают высокую защиту, но при этом требуют высокого вычислительного затрат. В этой связи появилась идея **селективной шифровки**, которая заключается в шифровании только самых важных элементов градиентов, определяемых определенной метрикой. Однако существует недостаток в исчерпывающих исследованиях, которые позволяют выбрать эти метрики в практических ситуациях. #### Метод Мы предлагаем систематический подход к оценке селективной шифровки через различные метрики важности градиентов. Методология включает: 1. **Моделирование**: Использование различных архитектур нейронных сетей, таких как LeNet, CNN, BERT и GPT-2, для имитации различных сценариев обучения. 2. **Защитные методы**: Реализация селективной шифровки с разными метриками важности градиентов (например, градиентная норма, максимальное значение и др.). 3. **Атаки**: Эмуляция градиентных нападений, включая optimization-based и другие, для оценки эффективности защиты. 4. **Оценка**: Измерение уровня повреждения градиентов и степени восстановления оригинальных данных. #### Результаты Мы провели эксперименты на нескольких моделях и задачах, включая обработку изображений и текстов. Наши результаты показали, что **градиентная норма** и **максимальные значения** являются эффективными метриками для селективного шифрования, обеспечивая сбалансированную защиту и высокую эффективность. Был определен тот факт, что **шифрование только ключевых элементов** не только снижает вычислительные затраты, но и обеспечивает достаточную защиту против градиентных нападений. Однако найдено, что **оптимальный подход** зависит от конкретной модели и уровня требуемой конфиденциальности. #### Значимость Результаты нашего исследования имеют значительное значение для разработки эффективных защитных методов во время федеративного обучения. Мы продемонстрировали, что **селективная шифровка** может стать эффективным методом для уменьшения вычислительных затрат без ущерба к защите конфиденциальных данных. Наша работа также заложила фундамент для будущих иссле
Annotation:
Gradient inversion attacks pose significant privacy threats to distributed training frameworks such as federated learning, enabling malicious parties to reconstruct sensitive local training data from gradient communications between clients and an aggregation server during the aggregation process. While traditional encryption-based defenses, such as homomorphic encryption, offer strong privacy guarantees without compromising model utility, they often incur prohibitive computational overheads. To ...
ID: 2508.04155v1 cs.CR, cs.LG
Авторы:

Muhammad Azmi Umer, Chuadhry Mujeeb Ahmed, Aditya Mathur, Muhammad Taha Jilani

Информационные системы управления промышленностью (ICS) являются критичными для современных инфраструктур, но остаются уязвимыми для атак, которые могут привести к негативным последствиям. Атаки часто основываются на известных уязвимостях, но остаются многочисленные затененные угрозы, которые трудно обнаружить. В статье предлагается даннообразная техника для генерации моделей атак, которая позволяет генерировать богатый набор моделей атак на основании данных, собранных из работающего водоочистного завода. Была проведена подробная случайная исследовательская работа, чтобы проверить эффективность нового подхода. Основными выводами являются: (1) новый подход демонстрирует высокую эффективность в генерации атак, (2) генерируемые модели позволяют выявить затененные угрозы, которые трудно выявить с помощью традиционных методов, и (3) этот подход может стать важной компонентой активной защиты ICS.
Annotation:
This work focuses on validation of attack pattern mining in the context of Industrial Control System (ICS) security. A comprehensive security assessment of an ICS requires generating a large and variety of attack patterns. For this purpose we have proposed a data driven technique to generate attack patterns for an ICS. The proposed technique has been used to generate over 100,000 attack patterns from data gathered from an operational water treatment plant. In this work we present a detailed case...
ID: 2508.04561v1 cs.CR, cs.LG
Авторы:

Chi-Sheng Chen, Samuel Yen-Chi Chen

Time series forecasting в критически важных областях, таких как финансы и энергетика, требует особого внимания к защите чувствительных данных. Дифференциальная приватность (DP) обеспечивает теоретические гарантии защиты индивидуальных данных, однако интеграция DP с искусственными нейронными сетями часто приводит к снижению качества модели из-за шума, внедренного в процессе обучения. Мы предлагаем Q-DPTS — гибридный квантово-классический подход для квантово-дифференциально-защищенного прогноза временных рядов. Q-DPTS использует вариационные квантовые схемы (VQCs) вместе с per-sample gradient clipping и гауссовским шумом для гарантии $(\epsilon, \delta)$-друфференциальной приватности. Эксперименты на ETT-данных показали, что Q-DPTS превосходит классические и квантовые модели в том числе LSTM, QASA, QRWKV и QLSTM, достигая низкого ошибки прогноза при одном и том же бюджете приватности. Это работа открывает новые пути к безопасному и точному моделированию временных рядов в конфиденциальных сценариях.
Annotation:
Time series forecasting is vital in domains where data sensitivity is paramount, such as finance and energy systems. While Differential Privacy (DP) provides theoretical guarantees to protect individual data contributions, its integration especially via DP-SGD often impairs model performance due to injected noise. In this paper, we propose Q-DPTS, a hybrid quantum-classical framework for Quantum Differentially Private Time Series Forecasting. Q-DPTS combines Variational Quantum Circuits (VQCs) w...
ID: 2508.05036v1 quant-ph, cs.CR, cs.LG, eess.SP
Показано 161 - 168 из 168 записей