📚 Саммари научных статей из arXiv

Найдено 168 результатов по запросу 'cs.CR, cs.LG' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Adaptive Anomaly Detection in Evolving Network Environments

2025-08-23

Авторы:

Ehssan Mousavipour, Andrey Dimanchev, Majid Ghaderi

## Контекст Изменение статистических свойств данных во временном диапазоне, известное как **distribution shift**, является ключевой проблемой для систем глубокого обучения, в том числе аномалий. Это становится особенно актуальным в сетевых средах, где свойства трафика могут меняться динамически. Традиционные системы детекции аномалий, основывающиеся на супервизорном обучении, требуют ручной меток, что повышает стоимость использования. Основываясь на несупервизорном обучении, эти системы часто сталкиваются с проблемой катастрофического забывания при адаптации к новым условиям. Наша мотивация заключается в разработке адаптивной системы, которая способна самостоятельно определять и преодолевать эти трудности. ## Метод Разработанная архитектура NetSight основывается на **online pseudo-labeling**, который автоматически генерирует метки для данных, не требуя ручных интервенций. Для контроля забывания вводится **knowledge distillation**, позволяющий сохранить полученные знания о предыдущих моделях. Базовая модель обучается с помощью алгоритма **triplet loss**, для того чтобы обеспечить высокую точность в классификации. Для мониторинга и адаптации к динамическим сетевым условиям вводится алгоритм **gradual domain adaptation**, который постепенно апгрейдит модель для сохранения интегрированности с новыми данными. ## Результаты На três длительных датасетах сетевых данных были проведены эксперименты, оценивающие эффективность NetSight. Метод показал **F1-score improvements**, которые достигают **11.72%** по сравнению с состоянием искусственного интеллекта, основанного на ручной метке. Также, NetSight продемонстрировал **высокую точность в детекции аномалий** в ситуациях, где статистические свойства трафика менялись во времени. Это доказывает повышенную гибкость и надежность системы в адаптации к изменению условий. ## Значимость Данная работа может быть применена в различных сценариях, где динамические сети нуждаются в реакции на изменения в трафике. Метод NetSight намного эффективнее существующих, поскольку он не требует ручной меток и автоматически адаптируется к изменениям. Это может быть применено в системах безопасности сети, мониторинге IT-инфраструктуры и других приложениях, где адаптивность к изменениям ключевая. ## Выводы Выводы NetSight подтвердили его эффективность в адаптации к изменениям статистических свойств данных в сетевых средах. Наша работа представляет собой улучшенный подход в области детекции аномалий, обеспечивая не только рост точности, но и снижение трудоемкости в ручных процессах. Будущие исследования будут фокусироваться на увеличении скорости адапта

Annotation:

Distribution shift, a change in the statistical properties of data over time, poses a critical challenge for deep learning anomaly detection systems. Existing anomaly detection systems often struggle to adapt to these shifts. Specifically, systems based on supervised learning require costly manual labeling, while those based on unsupervised learning rely on clean data, which is difficult to obtain, for shift adaptation. Both of these requirements are challenging to meet in practice. In this pape...

ID: 2508.15100v1 cs.CR, cs.LG

arXiv PDF

📄 BadFU: Backdoor Federated Learning through Adversarial Machine Unlearning

2025-08-23

Авторы:

Bingguang Lu, Hongsheng Hu, Yuantian Miao, Shaleeza Sohail, Chaoxiang He, Shuo Wang, Xiao Chen

#### Контекст Federated learning (FL) является децентрализованной методологией обучения, позволяющей нескольким клиентам обучать общую модель, не раскрывая локальные данные. Она нашла применение в различных сферах, где необходимо обеспечить приватность данных и соблюдение законов. Однако из-за роста запросов на машинное "учту" (machine unlearning), которое удаляет влияние определенных данных из обученной модели, появились новые вызовы в области FL. Удаление данных может стать целью атак, когда адверсари стремятся повлиять на глобальную модель. В этой статье рассматривается первая попытка использовать вредоносные запросы на машинное "учту" для внедрения уязвимостей в FL. #### Метод Стратегия "BadFU" (Backdoor Federated Unlearning) использует обычный процесс обучения с помощью параллельного инструмента для внедрения уязвимостей. Атакующий клиент обучает глобальную модель с помощью обычных данных и специальных "заглушек" (camouflage samples), которые могут быть удалены впоследствии. Если клиент запрашивает удаление этих заглушек, глобальная модель переходит в уязвимый состояние. Это происходит благодаря тому, что модель настраивается под удаление, но сохраняет подключенные компоненты, которые могут быть использованы для вредоносного воздействия. #### Результаты Опытные исследования подтверждают эффективность BadFU в ослаблении глобальной модели FL. Использовались различные FL-платформы и стратегии машинного "учту", чтобы проверить модель BadFU. Эксперименты показали, что злоумышленник может внедрить вредоносную функциональность в глобальную модель FL, которая при масштабировании может привести к серьезным последствиям. #### Значимость Результаты BadFU открывают возможность изучения новых уязвимостей в FL, особенно при использовании машинного "учту". Эта стратегия может использоваться в области кибербезопасности для тестирования и усовершенствования систем FL. Более того, BadFU может помочь разработчикам новых методов защиты FL от атак в рамках машинного "учту". #### Выводы BadFU подчеркивает необходимость развития безопасных методов машинного "учту" в FL. Будущие исследования будут сфокусированы на разработке методов, которые смогут эффективно защищать FL-системы от подобных атак и оптимизировать процесс удаления данных без потерь в безопасности.

Annotation:

Federated learning (FL) has been widely adopted as a decentralized training paradigm that enables multiple clients to collaboratively learn a shared model without exposing their local data. As concerns over data privacy and regulatory compliance grow, machine unlearning, which aims to remove the influence of specific data from trained models, has become increasingly important in the federated setting to meet legal, ethical, or user-driven demands. However, integrating unlearning into FL introduc...

ID: 2508.15541v1 cs.CR, cs.LG

arXiv PDF

📄 A Risk Manager for Intrusion Tolerant Systems: Enhancing HAL 9000 with New Scoring and Data Sources

2025-08-21

Авторы:

Tadeu Freitas, Carlos Novo, Inês Dutra, João Soares, Manuel Correia, Benham Shariati, Rolando Martins

## Контекст В последние годы возрастает важность Intrusion Tolerant Systems (ITS), так как злоумышленники становятся все более многогранными и эффективными, используя различные атаки и уязвимости. ITS предназначены для того, чтобы обеспечить выживание системы при наличии злоумышленников, добиваясь этого путем динамического управления рисками и адаптации системы к новым угрозам. Несмотря на это, существующие решения ITS часто ограничиваются использованием публичных баз данных, таких как NVD и ExploitDB, для оценки и управления рисками. Эти базы данных требуют ручного мониторинга и обновления, что приводит к задержкам в реакции на новые угрозы. Одной из первых работ в этой области является HAL 9000, который применяет машинное обучение для автоматического оценивания риска уязвимостей на основе их описаний. Тем не менее, ограничение HAL 9000 в ограниченной базе данных ограничивает его эффективность при реагировании на неожиданные и недокументированные угрозы. ## Метод В нашей работе мы расширяем HAL 9000, добавляя новый модуль сбора данных (scraper), который автоматически копирует данные из различных источников, включая безопасные совещания, форумы исследований и реальные примеры использования уязвимостей. Этот scraper расширяет базу знаний HAL 9000, позволяя ему быстрее и эффективнее реагировать на новые угрозы. Мы также усовершенствовали систему Exploitability Probability Scoring, позволяя оценивать вероятность эксплуатации уязвимостей в течение 30 дней. Это улучшение позволяет принять более прогнозируемые решения в управлении рисками. Мы интегрировали scraper в архитектуру HAL 9000, чтобы автоматически обновлять его базу данных и повышать точность оценки угроз. ## Результаты Мы провели эксперименты, сравнивая эффективность HAL 9000 с и Sans scraper и с базой данных NVD. Результаты показали, что словарь HAL 9000, пополненный данными из scraper, позволяет быстрее и точнее определять новые угрозы. Набор данных, включающий данные из NVD и scraper, позволил HAL 9000 повысить процент успешной оценки новых уязвимостей до 92%, что значительно превышает результаты без использования scraper. Мы также выявили, что HAL 9000 с scraper может оценивать риски уязвимостей до 5 дней раньше, чем при использовании NVD только. Это улучшение в течение 30 дней работы системы позволило значительно снизить риск компрометации. ## Значимость Расширенный HAL 9000 с парсером может быть использован в различных областях, включая критически важные системы, финансовые системы и сети. Его гибкость и быстрота реакции позволяют эффективно отвечать на появляющиеся новые угрозы. Инте

Annotation:

Intrusion Tolerant Systems (ITSs) have become increasingly critical due to the rise of multi-domain adversaries exploiting diverse attack surfaces. ITS architectures aim to tolerate intrusions, ensuring system compromise is prevented or mitigated even with adversary presence. Existing ITS solutions often employ Risk Managers leveraging public security intelligence to adjust system defenses dynamically against emerging threats. However, these approaches rely heavily on databases like NVD and Expl...

ID: 2508.13364v1 cs.CR, cs.LG

arXiv PDF

📄 Know Me by My Pulse: Toward Practical Continuous Authentication on Wearable Devices via Wrist-Worn PPG

2025-08-21

Авторы:

Wei Shao, Zequan Liang, Ruoyu Zhang, Ruijie Fang, Ning Miao, Ehsan Kourkchi, Setareh Rafatirad, Houman Homayoun, Chongzhou Fang

## Контекст В последние годы биометрическая аутентификация, основанная на физиологических сигналах, получает все большее признание в качестве альтернативы существующим методам доступа. Традиционно электрокардиограммы (ECG) использовались в этой области благодаря высокой точности, однако их внедрение в мобильные устройства сталкивается с тем, что необходимость вмешательства в физиологический процесс ограничивает их применение. В то же время, фотоплетисмография (PPG), в свою очередь, предлагает неинвазивное решение с возможностью продолжительного непрерывного мониторинга. Тем не менее, большинство исследований в этой области требуют высокочастотных PPG (от 75 до 500 Гц) и сложных нейронных сетей, что негативно сказывается на энергопотреблении и производительности. В данной работе мы предлагаем первую реализацию и оценку биометрической системы на основе низкочастотных PPG (25 Гц) для непрерывной аутентификации в реальном времени на смарт-часах. ## Метод Мы использовали низкочастотные (25 Гц) сигналы PPG, которые позволяют непрерывно мониторить данные через устройство We-Be Band (смарт-часы). В качестве метода определения идентичности применяется Bi-LSTM с механизмом внимания, обрабатывающий короткие окна данных (4 секунды) из 4 каналов PPG. Мы акцентируемся на том, чтобы достичь высокой точности распознавания с минимальным энергопотреблением. Наша система успешно обрабатывает данные даже при движении, благодаря разнообразию обучающих данных, который включает в себя как статические, так и динамические состояния. ## Результаты Мы основываем наши результаты на трех группах экспериментов: статических, динамических и реальной среде. На общем датасете (PTTPPG), а также на нашем собственном датасете (We-Be Dataset, 26 пользователей), мы получили высокую точность классификации: 88.11%, макро F1-метрику 0.88, False Acceptance Rate (FAR) 0.48%, False Rejection Rate (FRR) 11.77%, и Equal Error Rate (EER) 2.76%. Наша система работает на низкочастотных сигналах 25 Гц, что позволяет снизить потребление энергии до 53% по сравнению с 512 Гц и до 19% по сравнению с 128 Гц, при этом не ухудшая производительность. Мы также выявили, что при низких частотах (например, 20 Гц), производительность ухудшается существенно, в то время как энергоэффективность незначительно увеличивается. ## Значимость Предложенная система имеет широкие возможности применения в сферах безопасности, доступа и управления устройствами. Она предлагает высокую точность, низкое потребление энергии и удобство применения. Наши рез

Annotation:

Biometric authentication using physiological signals offers a promising path toward secure and user-friendly access control in wearable devices. While electrocardiogram (ECG) signals have shown high discriminability, their intrusive sensing requirements and discontinuous acquisition limit practicality. Photoplethysmography (PPG), on the other hand, enables continuous, non-intrusive authentication with seamless integration into wrist-worn wearable devices. However, most prior work relies on high-...

ID: 2508.13690v1 cs.CR, cs.LG

arXiv PDF

📄 Optimizing Region of Interest Selection for Effective Embedding in Video Steganography Based on Genetic Algorithms

2025-08-21

Авторы:

Nizheen A. Ali, Ramadhan J. Mstafa

## Контекст В настоящее время, при повышении потребления интернет-ресурсов, возрастает необходимость обеспечить защиту информации и конфиденциальность её передачи. Это привело к активному развитию исследований в области видео-стеганографии, техника, которая позволяет скрыть данные в видео, обеспечивая их незаметность для получателя. Однако, для достижения эффективности любой стеганографической системы необходимо обеспечить достаточное качество оригинального видео и высокую производительность скрытой передачи данных. Наличие региона интереса (ROI), где можно эффективно внедрять данные, является ключевым фактором улучшения этих параметров. Этот факт мотивирует разработку новых методик, оптимизирующих выбор ROI, чтобы обеспечить более высокую степень незаметности и эффективность внедрения данных. ## Метод Программированный алгоритм, основанный на генетических операциях, используется для выбора ROI в видео-стеганографической системе. Этот алгоритм анализирует кадры видео, определяя области, которые имеют максимальную степень независимости от остальной части видео, чтобы эффективно использовать их для внедрения данных. После определения ROI, секретные данные шифруются с помощью AES, что гарантирует их безопасность. Затем, эти данные внедряются в видео-объект, используя до 10% его объёма. Весь процесс оптимизируется с помощью GA, чтобы достичь оптимального баланса между качеством видео и эффективностью внедрения данных. ## Результаты Эксперименты проводились с использованием различных видео-файлов, где были зашиты секретные данные в разных областях. Использовались метрики PSNR (от 64 до 75 дБ) и время кодирования/декодирования, для оценки качества внедрения данных и производительности системы. Результаты показали, что применение GA для выбора ROI существенно повышает качество видео после внедрения данных, что позволяет получать высокую степень незаметности и высокую производительность. Это улучшает время реакции для реального времени приложений без существенного снижения качества видео. ## Значимость Результаты этого исследования могут быть применены в сферах, где требуется защита информации, таких как системы безопасности, трансляции видео, интеллектуальные системы мониторинга, и даже для защиты личных данных. Этот метод обеспечивает дополнительную безопасность и незаметность, благодаря оптимизации выбора ROI и использованию шифрования AES. Эти достижения могут иметь значительное влияние на развитие технологий защиты информации, обеспечивая более эффективные и быстрые способы передачи данных. ## Выводы В рез

Annotation:

With the widespread use of the internet, there is an increasing need to ensure the security and privacy of transmitted data. This has led to an intensified focus on the study of video steganography, which is a technique that hides data within a video cover to avoid detection. The effectiveness of any steganography method depends on its ability to embed data without altering the original video quality while maintaining high efficiency. This paper proposes a new method to video steganography, whic...

ID: 2508.13710v1 eess.IV, cs.CR, cs.LG, cs.MM

arXiv PDF

📄 Efficient and Verifiable Privacy-Preserving Convolutional Computation for CNN Inference with Untrusted Clouds

2025-08-20

Авторы:

Jinyu Lu, Xinrong Sun, Yunting Tao, Tong Ji, Fanyu Kong, Guoqiang Yang

#### Контекст Современное развитие искусственного интеллекта (ИИ) способствовало популярности конvolutional neural networks (CNNs) в решении различных задач, включая обработку изображений, текста и звука. Однако применение CNNs в ресурсорегулируемых средах сталкивается с проблемой защиты конфиденциальности данных. Например, при использовании Machine Learning as a Service (MLaaS) систем, данные, отправляемые клиентом на недоверенный облачный сервер, часто содержат конфиденциальную информацию. Это приводит к риску утечки персональных данных. Несмотря на то, что существующие способы защиты конфиденциальности, такие как homomorphic encryption и secret sharing, эффективны в обеспечении защиты данных, они ограничиваются малыми скоростями обработки, особенно во время выполнения операций convolution. Именно этот аспект требует развития эффективных и верифицируемых методов для решения этой задачи. #### Метод Мы предлагаем подробно описанную архитектуру, которая включает в себя несколько ключевых элементов. Во-первых, мы используем специальную структуру для шифрования данных, которая обеспечивает высокую производительность во время выполнения слоев convolution. Эта структура позволяет сократить время обработки за счет эффективных математических операций, которые могут быть выполнены на клиенте и на облачном сервере. Во-вторых, мы предлагаем механизм верификации, который позволяет клиенту проверить правильность вычислений, произведенных на облачном сервере. Это реализуется путем вычисления контрольной суммы и проверки ее на клиенте. Наконец, мы разработали новую алгоритмическую структуру, которая позволяет обеспечить высокую скорость и безопасность во время выполнения всей системы. #### Результаты Мы провели эксперименты на 10 различных данныхсэтов, применяя нашу схему к различным моделям CNN. Наши результаты показывают, что наш метод оказался значительно быстрее сравнительно с первоначальной моделью, не использующей защиту конфиденциальности. Например, мы достигли скоростных повышений от 26 до 87 раз в зависимости от модели и данных. Также мы показали, что наш метод не только эффективен, но и точен, сохраняя точность вывода моделей CNN. Эти результаты подтверждают, что наше решение может быть применено в реальных ситуациях, где защита конфиденциальных данных является критически важной. #### Значимость Мы видим многочисленные области применения нашего решения. В частности, оно может быть использовано в системах MLaaS, где клиенты хотят загружать свои данные на облачные серверы, но хотят обеспечить защиту их конфиденциальности. Наш метод также может применяться в области безопасных вычислений, где необходимо

Annotation:

The widespread adoption of convolutional neural networks (CNNs) in resource-constrained scenarios has driven the development of Machine Learning as a Service (MLaaS) system. However, this approach is susceptible to privacy leakage, as the data sent from the client to the untrusted cloud server often contains sensitive information. Existing CNN privacy-preserving schemes, while effective in ensuring data confidentiality through homomorphic encryption and secret sharing, face efficiency bottleneck...

ID: 2508.12832v2 cs.CR, cs.LG

arXiv PDF

📄 Semantically Guided Adversarial Testing of Vision Models Using Language Models

2025-08-19

Авторы:

Katarzyna Filus, Jorge M. Cruz-Duarte

#### Контекст Визуальные модели, такие как нейронные сети, широко используются в различных областях, но остаются уязвимыми к атакам. Одной из сложных проблем в этой области является целесообразное выбор целевого класса для направленных атак. Целевой класс — это выбранный класс, к которому атакующий склоняет модель. Большинство существующих подходов к выбору целевого класса основываются на случайности, предсказаниях модели или статических семантических ресурсах, что приводит к проблемам интерпретируемости, воспроизводимости и гибкости. Это способствует необходимости разработки более гибких и интерпретируемых методов выбора целевых классов. #### Метод Мы предлагаем подход, основанный на семантическом гидровоздушном силовом аппарате (SGAT), который использует предобученные модели языка и языково-визуальных моделей для выбора целевого класса. Методология включает в себя перенос познаний между моделями, что позволяет выбирать классы на основе семантической схожести. Для оценки семантической схожести используются модели BERT, TinyLLAMA и CLIP. Эти модели предоставляют кросс-модальные представления для определения семантической схожести между целевыми классами и тегом значения, который необходимо отклонить в атаке. #### Результаты Мы проводили эксперименты с тремя различными моделями визуального анализа и пятью методами атак. В ходе этих экспериментов мы определили, что подход SGAT привносит большую гибкость и интерпретируемость в выбор целевых классов. Мы сравнили результаты статических лексикографических баз данных, таких как WordNet, и показали, что SGAT показывает более точные и перспективные результаты в случаях, когда целевые классы находятся далеко от истинного класса. #### Значимость Предлагаемый подход может быть применен в областях безопасности и тестирования визуальных моделей. Он предоставляет более гибкий и интерпретируемый подход к выбору целевых классов, что может привести к более эффективному тестированию моделей. Этот подход также может помочь в создании стандартизированных бенчмарков для адверсарского тестирования, что повысит обобщаемость и воспроизводимость результатов. #### Выводы Мы продемонстрировали, что SGAT является эффективным подходом к выбору целевых классов и позволяет создавать более точные и интерпретируемые адверсарские тесты. В дальнейших исследованиях мы планируем расширить применение этого подхода к другим моделям и данным, а также изучить возможности семантической оценки для других типов моделей и приложений.

Annotation:

In targeted adversarial attacks on vision models, the selection of the target label is a critical yet often overlooked determinant of attack success. This target label corresponds to the class that the attacker aims to force the model to predict. Now, existing strategies typically rely on randomness, model predictions, or static semantic resources, limiting interpretability, reproducibility, or flexibility. This paper then proposes a semantics-guided framework for adversarial target selection us...

ID: 2508.11341v1 cs.CV, cs.CR, cs.LG, 68T45, 68T01, 68T07, 68T10, 68M25, I.2.10; I.5.4; I.2.6; I.2.7; K.6.5

arXiv PDF

📄 Advancing Autonomous Incident Response: Leveraging LLMs and Cyber Threat Intelligence

2025-08-16

Авторы:

Amine Tellache, Abdelaziz Amara Korba, Amdjed Mokhtari, Horea Moldovan, Yacine Ghamri-Doudane

## Контекст В современной киберсистеме, эффективное управление кибербезопасностью требует эффективного реагирования на инциденты (Incident Response, IR). Однако, существующие системы часто сталкиваются с проблемами, такими как высокий уровень сигналов-ложных срабатываний (alert fatigue), высокая доля ложноположительных результатов и огромный объем неструктурированных Cyber Threat Intelligence (CTI) документов. CTI, несмотря на его богатство информации, затрудняет процесс массового анализа и требует значительных ресурсов и времени для интеграции в IR-процессы. Таким образом, целесообразной является разработка методов, которые могут автоматизировать и оптимизировать анализ этой информации, уменьшив нагрузку на специалистов и повысив эффективность реагирования на киберугрозы. ## Метод Для решения этих проблем, мы предлагаем новый фреймворк, основанный на Retrieval-Augmented Generation (RAG), который использует Large Language Models (LLMs) для автоматизации и улучшения процесса IR. Фреймворк использует два типа восстановления информации: внутреннее восстановление с использованием NLP-based similarity search внутри CTI-базы векторов и внешнее восстановление с использованием запросов к внешним CTI-платформам. Эта комбинация позволяет выполнять контекстуально обоснованные поисковые запросы. Затем, полученные данные используются для формирования конкретных и действительных стратегий реагирования на инциденты с помощью LLM-powered response generation module. Этот подход обеспечивает контекстуальную релевантность и точность в формировании решений, уменьшая время реагирования и нагрузку на специалистов. ## Результаты Мы провести несколько экспериментов с использованием реальных и симулированных киберугроз. Наши результаты показывают, что фреймворк удачно объединяет внутренний и внешний поиск информации, значительно повышая точность и контекстуальную релевантность ответов. На основе данных, полученных в эксперименте, мы показали, что наш подход уменьшает время реагирования на инциденты и снижает нагрузку на специалистов. Была проведена двойная оценка: систематическая автоматическая оценка с использованием LLM и внешнее верифицирование результатов экспертами по кибербезопасности. ## Значимость Мы видим применение этого подхода в различных областях, включая оперативное управление кибербезопасностью, а также в автоматическое создание отчетов и анализа киберугроз. Наш подход демонстрирует не только улучшение точности, но и повышение эффективности и уменьшение затрат времени на анализ CTI. Он также позволяет автоматизировать многие задачи, включая генерацию отчетов и формирование стратегий реа

Annotation:

Effective incident response (IR) is critical for mitigating cyber threats, yet security teams are overwhelmed by alert fatigue, high false-positive rates, and the vast volume of unstructured Cyber Threat Intelligence (CTI) documents. While CTI holds immense potential for enriching security operations, its extensive and fragmented nature makes manual analysis time-consuming and resource-intensive. To bridge this gap, we introduce a novel Retrieval-Augmented Generation (RAG)-based framework that l...

ID: 2508.10677v1 cs.CR, cs.LG

arXiv PDF

📄 Social-Sensor Identity Cloning Detection Using Weakly Supervised Deep Forest and Cryptographic Authentication

2025-08-15

Авторы:

Ahmed Alharbi, Hai Dong, Xun Yi

## Контекст Одной из самых острых проблем в современном облачном искусственном интеллекте являются социально-ресурсные оболочки, в которых идентификационные данные пользователей могут быть клонированы или скопированы в нескольких точках. Это может привести к угрозам для конфиденциальности и безопасности, а также к ухудшению пользовательского опыта. Несмотря на существующие методы, они имеют недостаточную точность и не могут обеспечить комплексного решения для обнаружения дубликатов. Это мотивирует разработку более точных, универсальных и надежных систем, которые могут обеспечить безопасность и удобство для пользователей. ## Метод Метод, предложенный в этой работе, состоит из двух основных компонентов. Во-первых, мы разработали модель слабо надзорного углубленного леса (Weakly Supervised Deep Forest) для выявления похожих идентификационных данных. Модель использует незащищенные пользовательские данные, такие как география и даты регистрации, чтобы выявить факт потенциального дублирования. Во-вторых, мы предложили криптографический протокол аутентификации, который использует систему на основе хеширования данных и цифровых подписей для проверки факта того, что две похожие идентичности возникли у одного и того же поставщика услуг. Эта связка методов обеспечивает высокую точность и эффективность. ## Результаты Мы проводили тщательные эксперименты с использованием реального большого набора данных, содержащего множество случаев клонирования идентичности. Наши результаты показали, что наша модель обнаруживает похожие идентификационные данные с высокой точностью (порядка 95%) и превосходит текущие лучшие решения на рынке. Кроме того, протокол аутентификации доказал свою эффективность в создании надёжной системы для определения поставщика услуг, который выдал одинаковые идентификационные данные. ## Значимость Наш метод может применяться в различных областях, таких как облачные сервисы, социальные сети и финансовые организации, для защиты пользователей от клонирования идентичности и мошенничества. Он предоставляет не только высокую точность, но и универсальность, может быть использован для различных типов данных и сценариев. Благодаря этому, он может существенно влиять на развитие технологий безопасности в облачных службах. ## Выводы Мы представили новую модель для обнаружения клонирования идентичности в облачных сервисах, которая обеспечивает высокую точность и эффективность. Наши результаты показывают, что данный подход может быть использован для различных сценариев защиты от клонирования. Мы направляемся на дальнейшие развитие инновационных методов, которые могу

Annotation:

Recent years have witnessed a rising trend in social-sensor cloud identity cloning incidents. However, existing approaches suffer from unsatisfactory performance, a lack of solutions for detecting duplicated accounts, and a lack of large-scale evaluations on real-world datasets. We introduce a novel method for detecting identity cloning in social-sensor cloud service providers. Our proposed technique consists of two primary components: 1) a similar identity detection method and 2) a cryptography...

ID: 2508.09665v1 cs.CR, cs.LG, cs.SI, H.3; E.3; I.2; I.7

arXiv PDF

📄 Selective KV-Cache Sharing to Mitigate Timing Side-Channels in LLM Inference

2025-08-14

Авторы:

Kexin Chu, Zecheng Lin, Dawei Xiang, Zixu Shen, Jianchang Su, Cheng Chu, Yiwei Yang, Wenhui Zhang, Wenfei Wu, Wei Zhang

#### Контекст Large language models (LLMs) становятся важными для обработки текстов в сложных приложениях, но их высокая скорость работы делает их уязвимыми к атакам на основе тайминга. Одна из таких угроз — тайминговые сайд-чаннылс, которые позволяют атакующим получить доступ к чувствительным данным непосредственно из кеша. Эта проблема сильно снижает надежность и безопасность LLM-приложений. На сегодняшний день существуют методы изоляции кеша для уменьшения влияния тайминговых атак, но они значительно уменьшают производительность. Поэтому требуется новое решение, которое устранит эти атаки, не снижая производительности. #### Метод Мы предлагаем SafeKV (Secure and Flexible KV Cache Sharing) — новую архитектуру, основанную на концепции селективного кеша. Она разделяет кеш на две части: публичные данные, доступные для всех пользователей, и приватные данные, которые остаются защищенными. Методы работы SafeKV включают: (i) гибкую систему обнаружения, которая сочетает правила, паттерны и контекстную проверку; (ii) универсальную структуру данных на основе radix-tree, которая управляет размещением данных в разных уровнях памяти (HBM, DRAM, SSD); и (iii) мониторинг доступа с использованием энтропийных показателей, чтобы отслеживать и предотвращать утечки информации. #### Результаты Мы проверили SafeKV на различных моделях LLM и рабочих нагрузках. Метод удачно устраняет 94%-97% тайминговых атак, предотвращая потерю конфиденциальности. Улучшения производительности были заметны: время получения первого токена (TTFT) уменьшилось до 40,58%, а общая производительность (throughput) увеличилась до 2,66 раз в сравнении с методом изоляции кеша. На примере модели Qwen3-235B производительность была восстановлена в пределах от 50,41% до 11,74%, что позволяет реализовать высокую скорость работы с минимальными компромиссами в безопасности. #### Значимость SafeKV широко может применяться в различных системах, связанных с LLMs, в том числе в облачных сервисах, мобильных приложениях и системах с автоматизированной технической поддержкой. Он обеспечивает значительные преимущества, такие как повышение производительности без ущерба для приватности данных. Это решение может сильно повлиять на развитие безопасных систем для обработки текста и научных исследований в области конфиденциальности в AI. #### Выводы SafeKV достигает подлинного баланса между безопасностью и производительностью. Наше исследование показало, что фреймворк может эффективно защищать LLM-приложения от тайминговых атак, не уменьшая скорости работы. Мы планируем в дальнейшем расширить SafeKV на другие модели и приложения, а также вне

Annotation:

Global KV-cache sharing has emerged as a key optimization for accelerating large language model (LLM) inference. However, it exposes a new class of timing side-channel attacks, enabling adversaries to infer sensitive user inputs via shared cache entries. Existing defenses, such as per-user isolation, eliminate leakage but degrade performance by up to 38.9% in time-to-first-token (TTFT), making them impractical for high-throughput deployment. To address this gap, we introduce SafeKV (Secure and F...

ID: 2508.08438v1 cs.CR, cs.LG, cs.OS

arXiv PDF

1
2
14
15
16
17

Показано 151 - 160 из 168 записей