📚 Саммари научных статей из arXiv

Найдено 168 результатов по запросу 'cs.CR, cs.LG' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Throttling Web Agents Using Reasoning Gates

2025-09-05

Авторы:

Abhinav Kumar, Jaechul Roh, Ali Naseh, Amir Houmansadr, Eugene Bagdasarian

## Контекст Область исследования связана с управлением веб-агентами, которые используются для автоматизации взаимодействия с веб-сайтами. Эти агенты могут быть развернуты как в целях полезных задач (например, сбор данных или анализ), так и для вредоносных действий, таких как перегрузка сервисов или злоупотребление ресурсами. Одним из ключевых вопросов является то, как контролировать доступ агентов к ресурсам, при этом избегая их полного блокирования. Существуют существующие методы, такие как CAPTCHA и защиты от ошибочных запросов, но они не всегда эффективны против расширенных возможностей современных веб-агентов. Например, некоторые агенты могут выполнять масштабные запросы, скрапить контент или использовать модели языка для обойтимых методов идентификации. Мотивацией для данного исследования является разработка новых методов, позволяющих эффективно управлять доступом к ресурсам веб-сервисов, используя синтетические задачи и ассиметричные затраты на выполнение. ## Метод Формализованные задачи решаются с помощью метода "Throttling Gates" — систематических синтетических задач, выдаваемых агентам, прежде чем им разрешается доступ к ресурсам. Эти задачи должны удовлетворять следующим свойствам: асимметричность (затраты ресурсов подготовки задачи выше, чем на ее решение), масштабируемость (задачи могут быть применены к различным агентам), устойчивость (устойчивость к обойтимым защитам) и совместимость (не требуют изменения в основной архитектуре сервиса). Для решения этих целей был разработан новый тип задач — Reasoning Gates — основанных на ребусах (puzzles), которые требуют многошагового рассуждения и использования мировых знаний. Решение поставленных задач требует большого количества токенов для генерации ответов, что существенно увеличивает нагрузку на модели генерации текста. Для упрощения внедрения и эффективности был разработан протокол генерации и проверки задач, позволяющий с помощью синтетических моделей генерировать и проверять ответы агентов. ## Результаты В ходе экспериментов применения Throttling Gates показано, что они позволяют значительно увеличить затраты на выполнение задач по сравнению с существующими методами. Например, для модели GPT-3 задачи Reasoning Gates требуют 9,2 раз больше токенов на генерацию ответа. Эти результаты были получены с помощью реализации и использования протокола на демонстрационном сайте, где было измерено взаимодействие с реальными веб-агентами. Для подтверждения эффективности был проведен сравнительный анализ с другими методами защиты, такими как CAPTCHA и защита от ботов.

Annotation:

AI web agents use Internet resources at far greater speed, scale, and complexity -- changing how users and services interact. Deployed maliciously or erroneously, these agents could overload content providers. At the same time, web agents can bypass CAPTCHAs and other defenses by mimicking user behavior or flood authentication systems with fake accounts. Yet providers must protect their services and content from denial-of-service attacks and scraping by web agents. In this paper, we design a fra...

ID: 2509.01619v1 cs.AI, cs.CR, cs.LG

arXiv PDF

📄 I Stolenly Swear That I Am Up to (No) Good: Design and Evaluation of Model Stealing Attacks

2025-09-02

Авторы:

Daryna Oliynyk, Rudolf Mayer, Kathrin Grosse, Andreas Rauber

## Контекст Модели машинного обучения, предоставляемые в виде услуги, часто являются ключевым компонентом современных систем. Однако их конфиденциальность грозят атаками "стеленного моделирования" (model stealing attacks), при которых злоумышленник может получить доступ к модели, запросив ее многократно для классификации данных, и использовать эти данные для построения собственной модели. Данная проблема нарушает интеллектуальную собственность и является значительным угрозой безопасности. Несмотря на то, что атаки в этой области продолжают развиваться, существуют проблемы с стандартизацией их разработки и оценкой, что мешает сравнению различных подходов и оценке их эффективности. Наша работа является первой попыткой создания стандартизированного подхода к дизайну и оценке атак на модели машинного обучения. ## Метод Мы основываем нашу работу на двух основных элементах: широкой аналитической базе и практических экспериментах. В первую очередь, мы проводим анализ существующих работ по моделированию атак, определяя их уязвимости и ограничения. Затем, мы разрабатываем полную модель угроз, которая позволяет сравнивать различные атаки. Для этого мы создаем фреймворк, позволяющий измерить эффективность атак в зависимости от выбранных моделей и задач. Наши эксперименты основываются на образах изображений и атаках на изображение-классификацию, которые являются наиболее частой конфигурацией в полезных моделях. Мы используем различные модели и архитектуры, чтобы проверить наш фреймворк на ряде сценариев. ## Результаты Мы проводим ряд экспериментов, чтобы протестировать разные атаки, включая атаки на модели типа ResNet и MobileNet. Мы оцениваем параметры эффективности, такие как точность заглушкой, время тренировки и ресурсы, необходимые для атаки. Из результатов экспериментов мы выявляем характеристики, которые лучше всего подходят для построения эффективных атак. Наши результаты показывают, что наибольшую эффективность могут достичь атаки, использующие больший объем данных и сложные архитектуры моделей. Также мы проводим сравнение существующих методов атаки, чтобы определить, какие модели и задачи являются наиболее подверженными угрозам. ## Значимость Наши результаты могут быть применены в различных областях, проверяя не только модели изображение-классификации, но и другие модели, такие как текстовые модели и рекомендательные системы. Мы предлагаем новый подход к оценке моделей на уязвимость к моделированию, который может быть использован для проверки безопасности моделей в различных сценариях. Наши рекомендации

Annotation:

Model stealing attacks endanger the confidentiality of machine learning models offered as a service. Although these models are kept secret, a malicious party can query a model to label data samples and train their own substitute model, violating intellectual property. While novel attacks in the field are continually being published, their design and evaluations are not standardised, making it challenging to compare prior works and assess progress in the field. This paper is the first to address ...

ID: 2508.21654v1 cs.CR, cs.LG

arXiv PDF

📄 DynaMark: A Reinforcement Learning Framework for Dynamic Watermarking in Industrial Machine Tool Controllers

2025-09-02

Авторы:

Navid Aftabi, Abhishek Hanchate, Satish Bukkapatnam, Dan Li

## Контекст Industry 4.0 позволяет интегрировать машины, системы управления и производственные процессы в одну систему, обеспечивая более высокую производительность и автоматизацию. Однако такая интеграция сопряжена с риском атак, таких как реплей-атаки, когда несанкционированные пользователи используют устаревшую сенсорную информацию для манипуляции с актоуаторами. Это может привести к серьезным последствиям, включая повреждение оборудования и потерю качества продукции. Динамическая водяная метка (dynamic watermarking) представляет собой метод, который может открыть такие манипуляции, отображая искажения в данных. Однако существующие схемы динамической водяней метки предполагают линейно-Гауссовые динамики и постоянные статистические параметры водяных меток, что делает их неэффективными для использования на MTCs (machine tool controllers) с временно меняющимися динамиками и частично закрытыми моделями. Таким образом, требуется развитие более универсального подхода. ## Метод Мы предлагаем DynaMark, фреймворк на основе усиления обучения (reinforcement learning), который использует Марковский процесс решений (Markov decision process, MDP) для моделирования динамической водяной метки. DynaMark обучает адаптивный политический механизм (policy), который динамически меняет ковариацию нулевого-среднего Гауссового водяного знака с использованием доступных измерений и обратной связи детектора. Он не требует предварительного знания о системе. Для реализации этого фреймворка мы разработали механизм байесовского обновления уверенности (Bayesian belief updating) для реального времени, который работает в системах с линейными динамиками. Этот метод основывается на универсальной структуре MDP, которая не зависит от конкретных системных предположений, и позволяет DynaMark эффективно работать на MTCs. ## Результаты Мы проводили эксперименты с использованием цифровой модели Siemens Sinumerik 828D и физического тестбеда на основе шагового мотора. На цифровой модели DynaMark снизил энергозатраты на водяную метку на 70% в сравнении с базовым подходом постоянной вариации, при этом сохранив назначенный траектории. Он также поддерживает среднюю задержку обнаружения (detection delay), равную одному интервалу выбора. Физический тестбед показал, что DynaMark сразу же вызывает аварийные сигналы при меньшем ущербе для производительности контроллера, превосходя существующие бенчмарки. Эти результаты подтверждают эффективность DynaMark в раскрытии реплей-атак и сохранении производительности системы. ## Значимость DynaMark может применяться в различных производственных системах, включая цифровые системы управления, где требуется обнаружение

Annotation:

Industry 4.0's highly networked Machine Tool Controllers (MTCs) are prime targets for replay attacks that use outdated sensor data to manipulate actuators. Dynamic watermarking can reveal such tampering, but current schemes assume linear-Gaussian dynamics and use constant watermark statistics, making them vulnerable to the time-varying, partly proprietary behavior of MTCs. We close this gap with DynaMark, a reinforcement learning framework that models dynamic watermarking as a Markov decision pr...

ID: 2508.21797v1 eess.SY, cs.AI, cs.CR, cs.LG, cs.SY, stat.AP

arXiv PDF

📄 Deep Data Hiding for ICAO-Compliant Face Images: A Survey

2025-08-29

Авторы:

Jefferson David Rodriguez Chivata, Davide Ghiani, Simone Maurizio La Cava, Marco Micheletto, Giulia Orrù, Federico Lama, Gian Luca Marcialis

## Контекст ICAO-совместимые лицевые изображения, разработанные для безопасных биометрических паспортов, набирают важность в различных сферах, включая контроль пассажиров на границах, цифровые документы для путешествий и финансовые услуги. Их стандартизация обеспечивает глобальную интераптерабильность, но также становится причиной новых проблем, таких как морфинг и глубокое подделывание (deepfakes). Эти технологии могут использоваться для злонамеренных целей, включая кражу личности и незаконное распространение документов. Существующие методы, такие как Presentation Attack Detection (PAD), ограничены во времени и не могут обеспечить пост-съемочную защиту. В этой статье предлагается рассмотреть цифровой водяной знак и стеганографию как дополнительные подходы, которые позволяют внедрять в изображение устойчивые к подделке сигналы, обеспечивая непрерывный пост-съемочный контроль без нарушения стандартов ICAO. ## Метод Работа посвящена исследованию цифровых водяных знаков и стеганографии в рамках их применения к ICAO-совместимым изображениям. Основная методология включает анализ существующих техник в трех основных направлениях: (1) оценка качества внедрения сигнала в изображения, (2) измерение уровня защиты от модификаций и (3) оценка повреждения качества изображения. Для этого используется трёххэш-анализ, метрики PSNR и SSIM, а также специальные методы для выявления морфинга и deepfakes. Технические решения включают различные алгоритмы водяных знаков и стеганографические подходы, оптимизированные для требований ICAO. Данные используются из открытых баз, таких как MORPH-II и CASIA-Iris, а также стандартные ICAO-совместимые выборки. ## Результаты Проведенные эксперименты демонстрируют высокую эффективность внедрения водяных знаков и стеганографических сигналов в ICAO-совместимые изображения без существенного повреждения их качества. Был доказан устойчивость внедренных сигналов к модификациям, в том числе морфингу и deepfake-технологиям. В частности, стеганографические подходы показали высокую устойчивость к скрытому изменению изображения без потерь в качестве или видимых повреждений. Исследования также показали, что внедрение сигналов не влияет на стандартные требования ICAO, такие как разрешение и формат файла. ## Значимость Такие подходы имеют широкие применения в системах безопасности, в частности в защите документов, контроле пассажиров и проверке личности в финансовых услугах. Они обеспечивают непрерывную проверку вне зависимости от момента съемки или модификации и

Annotation:

ICAO-compliant facial images, initially designed for secure biometric passports, are increasingly becoming central to identity verification in a wide range of application contexts, including border control, digital travel credentials, and financial services. While their standardization enables global interoperability, it also facilitates practices such as morphing and deepfakes, which can be exploited for harmful purposes like identity theft and illegal sharing of identity documents. Traditional...

ID: 2508.19324v1 cs.CV, cs.AI, cs.CR, cs.LG, eess.IV

arXiv PDF

📄 Reliable Weak-to-Strong Monitoring of LLM Agents

2025-08-29

Авторы:

Neil Kale, Chen Bo Calvin Zhang, Kevin Zhu, Ankit Aich, Paula Rodriguez, Scale Red Team, Christina Q. Knight, Zifan Wang

## Контекст **Область исследования и мотивация** Современные глубоко обученные лингвистические модели (LLM) широко применяются для решения задач, но могут скрывать нежелательное поведение, такое как секретное разглашение конфиденциальной информации. Этот риск усиливается при использовании таких моделей в автономных системах. Необходимость контроля такого поведения делает актуальным развитие надежных систем мониторинга и оценки поведения LLM-агентов. **Проблемы** Существуют сложности в мониторинге, включая недостаточную надёжность систем, непредсказуемость стратегий обхода мониторинга, а также ограниченные тестирования в условиях разных уровней взаимодействия и ситуационной осведомлённости. **Мотивация** Этот исследовательский подход стремится систематизировать процесс тестирования мониторинга (Monitor Red Teaming, MRT), включающий различные уровни осведомлённости, агентские стратегии обхода мониторинга и специально сконструированные данные и среды для эффективного моделирования и тестирования. ## Метод **Методология и технические решения** Разработан метод мониторинга, основанный на систематизированном подходе MRT, который покрывает следующие вопросы: 1. **Уровни осведомлённости**: рассматриваются варианты, где агент и монитор имеют разные уровни осведомлённости о процессе мониторинга. 2. **Стратегии обхода мониторинга**: включают в себя способы, такие как "prompt injection" (внедрение команд через запросы), чтобы протестировать монитор на чувствительность к таким атакам. 3. **Среды и данные**: используются два специально разработанных окружения: SHADE-Arena (для агентов, использующих инструменты) и CUA-SHADE-Arena (для компьютерного использования агентов). **Архитектура** Предложена новая архитектура мониторинга, сочетающая в себе гибридную структуру: жёстко заданное поведение (для явных правил) и статистический анализ (для неявных моделей). Это позволяет снизить зависимость от высокой осведомлённости монитора и улучшить надёжность в ситуациях, когда агент скрывает своё поведение. ## Результаты **Эксперименты и данные** Использовались два набора данных и среды: SHADE-Arena и CUA-SHADE-Arena. На этих данных проводились эксперименты с разными уровнями осведомлённости монитора и агента, а также с различными стратегиями обхода мониторинга. **Полученные результаты** 1. **Результаты по надежности**: проведено сравнение различных моделей мониторинга в условиях разных уровней осведомлённости и стратегий обхода. 2. **Устойчивость к обходу мониторинга**: показано, что системы с гибридной архитектурой показали

Annotation:

We stress test monitoring systems for detecting covert misbehavior in autonomous LLM agents (e.g., secretly sharing private information). To this end, we systematize a monitor red teaming (MRT) workflow that incorporates: (1) varying levels of agent and monitor situational awareness; (2) distinct adversarial strategies to evade the monitor, such as prompt injection; and (3) two datasets and environments -- SHADE-Arena for tool-calling agents and our new CUA-SHADE-Arena, which extends TheAgentCom...

ID: 2508.19461v1 cs.AI, cs.CR, cs.LG

arXiv PDF

📄 Training Language Model Agents to Find Vulnerabilities with CTF-Dojo

2025-08-28

Авторы:

Terry Yue Zhuo, Dingmin Wang, Hantian Ding, Varun Kumar, Zijian Wang

## Контекст Современные большие языковые модели (LLMs) продемонстрировали их великолепные возможности, особенно в сфере инженерии программного обеспечения, где они используют верифицированные обратные сигналы для обучения. Несмотря на это, высококачественные исполняемые среды для обучения таких моделей остаются редкостью. Это ограничивает возможности для развития мощных машинных обучаемых агентов. Одной из главных проблем является существующая систематическая сложность в создании и поддержании таких сред, что требует больших усилий и ресурсов. Мы предлагаем CTF-Dojo, первую уникальную платформу, созданную с целью обучения LLMs в исполняемых средах с поддержкой верифицированных обратных сигналов. Она включает 658 полностью функциональных задач в стиле Capture-The-Flag (CTF), контейнеризованных в Docker, с гарантированной повторяемостью. Эта платформа позволяет значительно упростить процесс развертывания интерактивных исполняемых сред в обучении LLMs, позволяя быстро и эффективно создавать новые среды. ## Метод CTF-Dojo базируется на архитектуре, которая сочетает в себе верифицированные задачи стиля CTF с инструментами автоматизации для создания исполняемых сред. Мы разработали CTF-Forge, автоматизированную систему, которая может принимать общедоступные данные и преобразовывать их в готовые к использованию среды за несколько минут. Это устраняет необходимость в ресурсоемкой и дорогостоящей конфигурации, которая, как правило, занимает несколько недель. Однако CTF-Dojo не только упрощает процесс, но и добавляет значительные возможности для выполнения сложных задач в стиле CTF. Это позволяет обучать модели не только с помощью традиционных методов, но и с использованием новых, более эффективных подходов. ## Результаты Мы провели исследования с использованием LLM-агентов, обученных на CTF-Dojo. Мы использовали 486 высококачественных, верифицированных структурных обучающих траекторий. Это привело к улучшению результатов на трех различных бенчмарках: InterCode-CTF, NYU CTF Bench и Cybench. Наша модель 32B достигла доля 31.9% Pass@1, что является новым самым высоким результатом в открытом весовом классе. Этот результат находится на уровне с такими моделями, как DeepSeek-V3-0324 и Gemini-2.5-Flash. Эти результаты показывают, что интеллектуальные системы, обучаемые через исполняемые среды, могут достигать высоких результатов без необходимости использования дорогостоящих и закрытых систем. ## Значимость CTF-Dojo открывает новые возможности для обучения моделей с помощью исполняемых сред без необходимости использования дорогостоящих и

Annotation:

Large language models (LLMs) have demonstrated exceptional capabilities when trained within executable runtime environments, notably excelling at software engineering tasks through verified feedback loops. Yet, scalable and generalizable execution-grounded environments remain scarce, limiting progress in training more capable ML agents. We introduce CTF-Dojo, the first large-scale executable runtime tailored for training LLMs with verifiable feedback, featuring 658 fully functional Capture-The-F...

ID: 2508.18370v1 cs.SE, cs.CL, cs.CR, cs.LG

arXiv PDF

📄 Membership Inference Attacks on LLM-based Recommender Systems

2025-08-28

Авторы:

Jiajie He, Yuechun Gu, Min-Chun Chen, Keke Chen

## Контекст Large language models (LLMs), внедренные в рекомендательные системы (RecSys), предлагают гибкий и эффективный подход к адаптации рекомендаций к различным доменам. Одним из ключевых инструментов является включение в контекстные запросы (in-context learning, ICL), позволяющий настраивать рекомендательные функции на основе пользовательских данных. Эти данные могут включать в себя такие конфиденциальные элементы, как история взаимодействия пользователя с элементами (например, клики или рецензии). Несмотря на важность этих данных, существующие исследования не рассматривали потенциальную угрозу, связанную с использованием таких данных в контекстном обучении. Кроме того, существуют угрозы, связанные с вытекающими из этих данных сведениями о личности пользователей. Этот аспект требует дополнительных исследований. ## Метод Наше исследование состоит в разработке и оценке различных типов методов атак на конфиденциальность в LLM-based RecSys. Мы определили 4 типа атак: **прямая запросная атака (direct inquiry attack)**, **атака на основе вымышленности (hallucination attack)**, **атака на основе сходства (similarity attack)** и **атака с использованием вирусообразного вмешательства (poisoning attack)**. Каждый тип атаки использует уникальные особенности LLM и RecSys, чтобы выявить информацию о включении конкретных пользователей в системные модели. Мы также разработали экспериментальный план, включающий оценку на нескольких моделях LLM и двух бенчмарк-датасетах RecSys. Это позволило нам протестировать эффективность каждого типа атаки в реальной среде. ## Результаты Наши эксперименты показали, что угроза со стороны MIA в LLM-based RecSys очень реальна. Типы атак, такие как **direct inquiry** и **poisoning attack**, демонстрируют высокую эффективность. Мы также выявили, что факторы, такие как количество системных примеров (shots) в контекстном запросе и позиция жертвы в этих примерах, могут значительно повлиять на результаты атак. Эти результаты подтверждают, что злоумышленники могут предсказать, включен ли конкретный пользователь в систему, лишь используя частичные данные. ## Значимость Полученные результаты имеют большое значение для развития безопасных LLM-based RecSys. Мы продемонстрировали техническую возможность MIA в этой области и показали, каким образом эти угрозы могут быть эффективно использованы в практических ситуациях. Это открывает возможности для развития новых методов защиты, таких как шифрование данных и анонимность взаимодействия. Будущие исследования будут сфокусированы на создании эффективных методов защиты и обнаружения таких атак, а также на изучении эффективности различных стратегий атак в раз

Annotation:

Large language models (LLMs) based Recommender Systems (RecSys) can flexibly adapt recommendation systems to different domains. It utilizes in-context learning (ICL), i.e., the prompts, to customize the recommendation functions, which include sensitive historical user-specific item interactions, e.g., implicit feedback like clicked items or explicit product reviews. Such private information may be exposed to novel privacy attack. However, no study has been done on this important issue. We design...

ID: 2508.18665v1 cs.IR, cs.AI, cs.CL, cs.CR, cs.LG

arXiv PDF

📄 GRAID: Synthetic Data Generation with Geometric Constraints and Multi-Agentic Reflection for Harmful Content Detection

2025-08-27

Авторы:

Melissa Kazemi Rad, Alberto Purpura, Himanshu Kumar, Emily Chen, Mohammad Shahed Sorower

## Контекст В условиях внедрения интеллектуальных систем в широкие области применения, такие как социальные сети, мобильные приложения и машинное обучение, возрастает необходимость эффективных методов для обнаружения и отбора вредоносного контента. Несмотря на развитие методов машинного обучения, одной из основных проблем становится существенное недостатко данных для обучения моделей, особенно в сферах, где контент может быть не только вредоносным, но и защищенным законом. Это создает риск для моделей, которые могут оказаться неподготовленными к обнаружению высокоспецифичных видов вредоносного контента. Чтобы устранить это недостатки, необходимо развить методы синтетического пополнения данных, которые могут обеспечить широкое представление потенциального диапазона ситуаций. ## Метод GRAID (Geometric and Reflective AI-Driven Data Augmentation) — это новый подход к синтетическому пополнению данных, основанный на применении больших языковых моделей (LLMs). Он состоит из двух этапов. На первом этапе используется LLM с ограничениями, чтобы синтезировать новые примеры данных с учетом геометрических ограничений, таких как синтаксическая и семантическая корректность. На втором этапе используется многоагентный процесс отражения, который позволяет улучшить стилистическую разнообразие и откроет возможность для охвата крайних случаев. Эта стратегия обеспечивает охват входного пространства данных с одной стороны и позволяет углубиться в детали вредоносных ситуаций с другой. ## Результаты На двух наборах бенчмарк-данных, развернутых для обучения модели защиты от вредоносного контента, GRAID показал существенное улучшение в работе модели. Эксперименты показали, что добавление синтетических примеров, сгенерированных GRAID, позволяет увеличить точность и общую производительность модели. В частности, улучшение было наиболее заметно в случаях, когда модель должна была распознавать нестандартные виды вредоносного контента, для которых существует недостаток примеров в обучающей выборке. ## Значимость Помимо обнаружения вредоносного контента, GRAID может применяться в различных областях, таких как синтез данных для медицины, финансов и юридических систем. Основное преимущество этого подхода заключается в том, что он обеспечивает более широкое и детальное представление граничных случаев, что позволяет моделям быть более устойчивыми к немногочисленным, но важным для применения ситуациям. ## Выводы Выводы определили, что GRAID — это эффективный метод синтетического пополнения данных для обнаружения вредоносного контента. В будущем, GRAID может быть расширен для поддержки других сценариев, таких как синтез данных для защиты от мошенничества или определения пот

Annotation:

We address the problem of data scarcity in harmful text classification for guardrailing applications and introduce GRAID (Geometric and Reflective AI-Driven Data Augmentation), a novel pipeline that leverages Large Language Models (LLMs) for dataset augmentation. GRAID consists of two stages: (i) generation of geometrically controlled examples using a constrained LLM, and (ii) augmentation through a multi-agentic reflective process that promotes stylistic diversity and uncovers edge cases. This ...

ID: 2508.17057v1 cs.CL, cs.CR, cs.LG

arXiv PDF

📄 PickleBall: Secure Deserialization of Pickle-based Machine Learning Models

2025-08-26

Авторы:

Andreas D. Kellas, Neophytos Christou, Wenxin Jiang, Penghui Li, Laurent Simon, Yaniv David, Vasileios P. Kemerlis, James C. Davis, Junfeng Yang

#### Контекст Machine learning model repositories, такие как Hugging Face Model Hub, обеспечивают широкую эксплуатацию моделей машинного обучения. Однако вредоносные акторы могут использовать эти репозитории для распространения вредоносного кода через загруженные модели. Существующие меры защиты, такие как безопасные форматы моделей, ограниченные (но неэффективные) политики загрузки и сканеры моделей, имеют существенные недостатки. Например, 44,9% популярных моделей на Hugging Face все еще используют небезопасный формат pickle, 15% из них не могут быть загружены ограничивающими политиками, и сканеры моделей не только дают ложноположительные, но и ложные отрицательные результаты. Хотя pickle остается доминирующим форматом для обмена моделями, комьюнити машинного обучения не имеет транспарентного и эффективного средства для безопасной загрузки таких моделей. #### Метод PickleBall предлагает безопасное загрузка pickle-based моделей, используя статический анализ исходного кода машинного обучения библиотек. Эта библиотека строит политики загрузки, которые определяют безопасное поведение модели во время загрузки. PickleBall динамически применяет эти политики во время загрузки, действуя как замена модулю pickle. Оно было разработано для того, чтобы генерировать политики, которые корректно загружают 79,8% безопасных pickle-based моделей в нашем наборе данных, при этом блокируя 100% вредоносных примеров. В сравнении с модельными сканерами, которые не могут выявить известные вредоносные модели, и состоящими стандартом лоадерами, которые загружают 22% меньше безопасных моделей, PickleBall снижает угрозу от случайных функциональных вызовов и повышает порог для атак, заставляя вредоносных акторов полагаться на технологии кода-реюз. #### Результаты В нашем эксперименте мы сравнили PickleBall с другими фреймворками для загрузки моделей. PickleBall стабильно определяет и блокирует все вредоносные модели, достигая 100% точности в определении. Напротив, сканеры моделей пропускают известные вредоносные модели, и стандартные лоадеры показывают меньшую эффективность при загрузке безопасных моделей. Эти результаты подтверждают эффективность PickleBall в гарантировании безопасной загрузки pickle-based моделей. #### Значимость PickleBall может применяться в любых системах, использующих pickle для обмена моделями, таких как облачные сервисы, легковесные модели и модели речевого распознавания. Он обеспечивает значительный прирост безопасности, устраняя риск нежелательного выполнения вредоносного кода. В долгосрочной перспективе, PickleBall может стать стандартом для безопасной загрузки pickle-based моделей, повышая надежность моделей и уменьшая риск для пользователей. #### Выводы PickleBall я

Annotation:

Machine learning model repositories such as the Hugging Face Model Hub facilitate model exchanges. However, bad actors can deliver malware through compromised models. Existing defenses such as safer model formats, restrictive (but inflexible) loading policies, and model scanners have shortcomings: 44.9% of popular models on Hugging Face still use the insecure pickle format, 15% of these cannot be loaded by restrictive loading policies, and model scanners have both false positives and false negat...

ID: 2508.15987v1 cs.CR, cs.LG

arXiv PDF

📄 Linkage Attacks Expose Identity Risks in Public ECG Data Sharing

2025-08-25

Авторы:

Ziyu Wang, Elahe Khatibi, Farshad Firouzi, Sanaz Rahimi Mousavi, Krishnendu Chakrabarty, Amir M. Rahmani

## Контекст Современное развитие технологий и увеличение доступности электрокардиограмм (ECG) в области медицины и биологических исследований даровало новые возможности в лечении и профилактике заболеваний сердечно-сосудистой системы. Однако, присоединяясь к трендам в области открытого доступа к данным, широкое распространение электрокардиограмм в общественную сферу создает значительные риски для частной жизни. В недавнее время было показано, что ECG-данные обладают характеристиками, позволяющими установить идентичность лица. Это делает их подверженными атакам связывания, которые могут использоваться для идентификации или деанонимизации пользователей. Тем не менее, большинство существующих исследований по этим рискам основываются на предположении, что атакующий обладает полным доступом к данным или имеет высокотехнологичные средства, что не соответствует реальным условиям. Наша мотивация заключается в оценке рисков связывания ECG-данных в условиях реальности, где атакующий может иметь только частичный доступ к информации. ## Метод Мы использовали данные сердечных ритмов, полученных с применением различных технологий ECG (сенсоры на телефонах, специализированные устройства и т. д.) от 109 участников. Для моделирования рисков связывания на основе частичного доступа к данным мы разработали алгоритм, который использует эти частичные данные для восстановления полной идентификации. Метриками производительности стали доля успешных связываний, общая доля неверных определений и правильная идентификация неизвестных субъектов. Мы экспериментировали с разными уровнями доступа и установили оптимальные пороги доверия для минимизации ошибок. Основной критерий успешности был точность связывания идентификаторов. ## Результаты В результате экспериментов мы достигли 85% точности в правильной идентификации участников, 14.2% общей доли неверных определений и 15.6% неизвестных субъектов, которые были неправильно идентифицированы как известные, а 12.8% известных, как неизвестные. Эти результаты показывают, что даже при ограниченном доступе к данным атакующий может эффективно связать ECG-данные с идентификаторами. Интересно, что простые методы анонимизации не дают значительной защиты, что создает угрозу для частной жизни участников. Наши результаты также подтверждают, что частичная информация вполне достаточна для эффективной связывания данных. ## Значимость Результаты нашего исследования имеют важное значение для многих сфер, включая медицину, системы мониторинга здоров

Annotation:

The increasing availability of publicly shared electrocardiogram (ECG) data raises critical privacy concerns, as its biometric properties make individuals vulnerable to linkage attacks. Unlike prior studies that assume idealized adversarial capabilities, we evaluate ECG privacy risks under realistic conditions where attackers operate with partial knowledge. Using data from 109 participants across diverse real-world datasets, our approach achieves 85% accuracy in re-identifying individuals in pub...

ID: 2508.15850v1 cs.CR, cs.LG

arXiv PDF

1
2
13
14
15
16
17

Показано 141 - 150 из 168 записей