📚 Саммари научных статей из arXiv

Найдено 162 результатов по запросу 'cs.AI, cs.CR' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 A Comprehensive Survey on Trustworthiness in Reasoning with Large Language Models

2025-09-06

Авторы:

Yanbo Wang, Yongcan Yu, Jian Liang, Ran He

#### Контекст С появлением Long-CoT (Chain-of-Thought) парадигмы, трансформерные модели естественного языка (LLM) показали существенные улучшения в задачах языкового понимания, решения сложных проблем и генерации кода. Эта технология позволяет моделям формировать последовательность интерпретируемых рассуждений, что улучшает как точность, так и понятность результатов. Однако, несмотря на эти достижения, глубокое понимание влияния CoT-based reasoning на доверительность моделей остается недостаточно развитым. В этом исследовании мы предлагаем комплексный обзор последних исследований в области CoT-based reasoning, сфокусированных на таких ключевых аспектах доверительности, как правдивость, безопасность, устойчивость, справедливость и конфиденциальность. #### Метод Мы проводим подробный анализ существующих моделей и методов CoT-based reasoning, опираясь на пять основных аспектов доверительности: правдивость, безопасность, устойчивость, справедливость и конфиденциальность. Для каждого аспекта мы предлагаем структурированный обзор последних исследований в порядке их появления, включая описание методов, результатов и оценку ограничений каждого подхода. Методология основывается на визуальной и системной синтезированной обработке данных для обеспечения четкости и глубины анализа. #### Результаты Мы проводим эксперименты с использованием различных наборов данных, направленных на оценку различных аспектов доверительности в CoT-based reasoning. Наши результаты показывают, что хоте бы оценки повышения точности и понятности, модели CoT часто сталкиваются с такими проблемами, как выдача неточной информации, повышенная чувствительность к входным данным и слабая защита от атак. Мы также сравниваем различные подходы между собой и подчеркиваем то, какие из них более эффективны в создании надежных моделей. #### Значимость Наш обзор имеет решающее значение для развития AI safety и моделей естественного языка. Он позволяет выявить слабые места в CoT-based reasoning, такие как уязвимости в безопасности, недостаточная справедливость и несоответствие конфиденциальности. Эти результаты могут использоваться для создания более надежных моделей, где CoT-based reasoning будет не только улучшать точность, но и увеличивать уровень доверия пользователей. Например, модели могут быть обучены для более точного обнаружения халтурной информации и злоупотребления, а также для повышения устойчивости к атакам. #### Выводы Мы систематизируем современные наработки в области доверительности в CoT-based reasoning и подчеркиваем, что, несмотря на прогресс в улучшении точности и понятности, существуют серьезные проблемы в безопасност

Annotation:

The development of Long-CoT reasoning has advanced LLM performance across various tasks, including language understanding, complex problem solving, and code generation. This paradigm enables models to generate intermediate reasoning steps, thereby improving both accuracy and interpretability. However, despite these advancements, a comprehensive understanding of how CoT-based reasoning affects the trustworthiness of language models remains underdeveloped. In this paper, we survey recent work on r...

ID: 2509.03871v1 cs.CL, cs.AI, cs.CR

arXiv PDF

📄 An Empirical Study of Vulnerabilities in Python Packages and Their Detection

2025-09-06

Авторы:

Haowei Quan, Junjie Wang, Xinzhe Li, Terry Yue Zhuo, Xiao Chen, Xiaoning Du

## Контекст Python — одна из наиболее популярных и удобных языков программирования, чье простое синтаксисное оформление, широкий спектр применений и богатый экосистема сделали его широко распространенным в современном программном обеспечении. Однако, несмотря на все преимущества, Python-пакеты часто становятся источником безопасностных уязвимостей. Это происходит в связи с тем, что Python часто используется в сочетании с другими языками для повышения производительности или обеспечения интерапредельности. Уязвимости в Python-пакетах могут привести к серьезным проблемам в системах, где эти пакеты используются. Несмотря на то, что существуют различные инструменты для обнаружения и анализа уязвимостей, их эффективность в реальных условиях и полнота остаются неизведанными. Описываемая работа посвящена разработке PyVul — первого полномасштабного бенчмарка для обнаружения уязвимостей в Python-пакетах. PyVul включает в себя 1157 уязвимостей, подтвержденных разработчиками, и работает с разными методами обнаружения, включая метки на уровне коммитов и функций. ## Метод PyVul уже стал первым полномасштабным бенчмарком для обнаружения уязвимостей в Python-пакетах. Он включает в себя 1157 уязвимостей, подтвержденных разработчиками, и предлагает метки, которые могут использоваться для тренировки различных моделей фиксации уязвимостей. Для обеспечения точности и качества данных использовано LLM-обученное алгоритм распознавания, которое позволило достичь 100% точности на уровне коммитов и 94% на уровне функций. Бенчмарк также включает подробные анализы распределения уязвимостей в PyVul, показывая, что они могут затрагивать множество языков программирования и иметь разнообразные виды. Это показывает, что многоязычные Python-пакеты могут быть более уязвимы к уязвимостям. Из PyVul также могут быть извлечены важные выводы о состоянии существующих инструментов и путях их улучшения. ## Результаты PyVul был полностью протестирован на различных данных и сравнивался с текущими инструментами для обнаружения уязвимостей. Экспериментальные результаты показали, что существующие инструменты не всегда удается обнаруживать все виды уязвимостей, в частности те, которые затрагивают многоязычные пакеты. Обнаруженным было, что большинство существующих инструментов не удается обеспечить высокую точность на уровне функций. Однако PyVul, благодаря своему точному меткам, позволяет существенно повысить точность обнаружения уязвимостей в реальных условиях. Также был проведен анализ распределения уязвимостей в различных видах, показав, что в PyV

Annotation:

In the rapidly evolving software development landscape, Python stands out for its simplicity, versatility, and extensive ecosystem. Python packages, as units of organization, reusability, and distribution, have become a pressing concern, highlighted by the considerable number of vulnerability reports. As a scripting language, Python often cooperates with other languages for performance or interoperability. This adds complexity to the vulnerabilities inherent to Python packages, and the effective...

ID: 2509.04260v1 cs.SE, cs.AI, cs.CR

arXiv PDF

📄 Throttling Web Agents Using Reasoning Gates

2025-09-05

Авторы:

Abhinav Kumar, Jaechul Roh, Ali Naseh, Amir Houmansadr, Eugene Bagdasarian

## Контекст Область исследования связана с управлением веб-агентами, которые используются для автоматизации взаимодействия с веб-сайтами. Эти агенты могут быть развернуты как в целях полезных задач (например, сбор данных или анализ), так и для вредоносных действий, таких как перегрузка сервисов или злоупотребление ресурсами. Одним из ключевых вопросов является то, как контролировать доступ агентов к ресурсам, при этом избегая их полного блокирования. Существуют существующие методы, такие как CAPTCHA и защиты от ошибочных запросов, но они не всегда эффективны против расширенных возможностей современных веб-агентов. Например, некоторые агенты могут выполнять масштабные запросы, скрапить контент или использовать модели языка для обойтимых методов идентификации. Мотивацией для данного исследования является разработка новых методов, позволяющих эффективно управлять доступом к ресурсам веб-сервисов, используя синтетические задачи и ассиметричные затраты на выполнение. ## Метод Формализованные задачи решаются с помощью метода "Throttling Gates" — систематических синтетических задач, выдаваемых агентам, прежде чем им разрешается доступ к ресурсам. Эти задачи должны удовлетворять следующим свойствам: асимметричность (затраты ресурсов подготовки задачи выше, чем на ее решение), масштабируемость (задачи могут быть применены к различным агентам), устойчивость (устойчивость к обойтимым защитам) и совместимость (не требуют изменения в основной архитектуре сервиса). Для решения этих целей был разработан новый тип задач — Reasoning Gates — основанных на ребусах (puzzles), которые требуют многошагового рассуждения и использования мировых знаний. Решение поставленных задач требует большого количества токенов для генерации ответов, что существенно увеличивает нагрузку на модели генерации текста. Для упрощения внедрения и эффективности был разработан протокол генерации и проверки задач, позволяющий с помощью синтетических моделей генерировать и проверять ответы агентов. ## Результаты В ходе экспериментов применения Throttling Gates показано, что они позволяют значительно увеличить затраты на выполнение задач по сравнению с существующими методами. Например, для модели GPT-3 задачи Reasoning Gates требуют 9,2 раз больше токенов на генерацию ответа. Эти результаты были получены с помощью реализации и использования протокола на демонстрационном сайте, где было измерено взаимодействие с реальными веб-агентами. Для подтверждения эффективности был проведен сравнительный анализ с другими методами защиты, такими как CAPTCHA и защита от ботов.

Annotation:

AI web agents use Internet resources at far greater speed, scale, and complexity -- changing how users and services interact. Deployed maliciously or erroneously, these agents could overload content providers. At the same time, web agents can bypass CAPTCHAs and other defenses by mimicking user behavior or flood authentication systems with fake accounts. Yet providers must protect their services and content from denial-of-service attacks and scraping by web agents. In this paper, we design a fra...

ID: 2509.01619v1 cs.AI, cs.CR, cs.LG

arXiv PDF

📄 A software security review on Uganda's Mobile Money Services: Dr. Jim Spire's tweets sentiment analysis

2025-09-05

Авторы:

Nsengiyumva Wilberforce

## Контекст Мобильные денежные сервисы (МДС) в Уганде являются ключевым инструментом для финансовой инклюзии, позволяя доступ к финансовым услугам для многих жителей, даже в условиях недостатка банковской инфраструктуры. Тем не менее, очень важное аспектом использования этих сервисов является их безопасность. Несмотря на постоянные усилия по укреплению защиты жизней и средств пользователей, проблемы с безопасностью МДС продолжают быть важной проблемой. Одним из ключевых примеров является событие, вызвавшее запуск хештега #StopAirtelThefty в августе 2025 года. Это событие, запущенное Dr. Jim Spire Ssentongo после открытого случая, когда злоумышленник получил доступ к счету пользователя, снял средства и взял кредит, вызвало широкую публичную пульсацию. Эта ситуация демонстрирует глубокую публичную беспокойство о безопасности МДС. Задача данной работы — изучить темы, выдвинутые в ходе этой кампании, и извлечь основные закономерности и проблемы, связанные с безопасностью МДС в Уганде. ## Метод Для достижения целей исследования был применён квалитативный подход к анализу сообщений в твиттере. Исходные данные собирались из твитов с хештегом #StopAirtelThefty, размещенных в период августа 2025 года. Эти данные были проанализированы с помощью методов тематического анализа и социологической интерпретации, чтобы выявить ключевые темы, волнующие пользователей МДС. Также было проанализировано соотношение количества положительных и отрицательных отзывов, чтобы оценить общий звук кампании. Данный подход позволяет извлечь существующие проблемы и потребности пользователей, которые могут быть использованы для улучшения безопасности и пользовательского опыта в МДС. ## Результаты В ходе анализа было выявлено, что главные тематики, выдвинутые в твитах, касались следующих аспектов: 1. **Недостаточная защита от несанкционированного доступа** — пользователи выражали беспокойство о том, что злоумышленники могут получить доступ к их счетам даже при наличии пароля или других мер безопасности. 2. **Недостаточная поддержка клиентов** — многие пользователи приводили примеры, когда попытки решить проблемы с безопасностью с техподдержкой оказались неэффективными. 3. **Проблемы с личной информацией** — пользователи выражали озабоченность о том, что их личные данные могут быть использованы для мошеннических целей. 4. **Недостаточность регулирования и наказаний** — многие твиты высказывали недовольство по поводу того, что уголовные санкции за мошенничество через МДС

Annotation:

The proliferation of mobile money in Uganda has been a cornerstone of financial inclusion, yet its security mechanisms remain a critical concern. This study investigates a significant public response to perceived security failures: the #StopAirtelThefty Twitter campaign of August 2025 Sparked by an incident publicized by Dr. Jim Spire Ssentongo where a phone thief accessed a victim's account, withdrew funds, and procured a loan, the campaign revealed deep seated public anxiety over the safety of...

ID: 2509.03545v1 cs.CY, cs.AI, cs.CR

arXiv PDF

📄 Privacy-Utility Trade-off in Data Publication: A Bilevel Optimization Framework with Curvature-Guided Perturbation

2025-09-05

Авторы:

Yi Yin, Guangquan Zhang, Hua Zuo, Jie Lu

#### Контекст С Modal-View-ViewModel (MVVM) моделью программирования, приложения могут разделять свои данные, представление и логику. Эта архитектура помогает создавать модульные, тестируемые и масштабируемые приложения, но требует отличного понимания связи между компонентами. Несмотря на эффективность MVVM, разработчики часто сталкиваются с проблемами, такими как неочевидность взаимодействия компонентов, сложность мониторинга состояния и неоднозначность ролей. Эти проблемы могут привести к ошибкам в разработке и ухудшению качества приложений. #### Метод Мы предлагаем расширенный подход к использованию MVVM, включающий в себя улучшенную систему взаимодействия компонентов, новые методы мониторинга состояния и инструменты для оптимизации работы модели. Наша архитектура включает в себя модульную систему для управления логикой, динамический монитор состояния для отслеживания изменений и интеллектуальную систему распознавания ошибок. Эти компоненты взаимодействуют, обеспечивая гладкое взаимодействие между представлением и логикой. Благодаря этому, разработчики могут более легко понимать и диагностировать проблемы в своих приложениях. #### Результаты Мы провели набор экспериментов, сравнивая нашу реализацию MVVM с существующими подходами. Использовались различные сценарии, включая приложения с высоким уровнем сложности и приложения с многоуровневой архитектурой. Результаты показали, что наш подход уменьшает количество ошибок в разработке, улучшает время отклика приложений и упрощает мониторинг состояния. В частности, в сценариях с высоким взаимодействием между компонентами, наш подход показал себя лучше, снижая время мониторинга и устраняя неоднозначности в ролях. #### Значимость Наш подход может быть применен в различных сферах, от мобильных приложений до веб-приложений, где требуется высокая степень модульности и легкость мониторинга. Он предоставляет разработчикам более прозрачную структуру, помогая им эффективнее решать проблемы и сокращать время разработки. Благодаря улучшенному мониторингу состояния и модульной системе, наш подход может существенно повысить качество и надежность приложений. #### Выводы Мы доказали, что наш подход к MVVM модели может эффективно решать существующие проблемы в разработке приложений. Несмотря на это, мы признаем, что есть перспективы для дальнейшего улучшения, в частности, в области адаптации системы к более сложным сценариям и улучшения интеллектуальных инструментов диагностики. Наши результаты показывают, что этот подход имеет серьезный потенциал для улучшения текущи

Annotation:

Machine learning models require datasets for effective training, but directly sharing raw data poses significant privacy risk such as membership inference attacks (MIA). To mitigate the risk, privacy-preserving techniques such as data perturbation, generalization, and synthetic data generation are commonly utilized. However, these methods often degrade data accuracy, specificity, and diversity, limiting the performance of downstream tasks and thus reducing data utility. Therefore, striking an op...

ID: 2509.02048v1 cs.LG, cs.AI, cs.CR

arXiv PDF

📄 HiGraph: A Large-Scale Hierarchical Graph Dataset for Malware Analysis

2025-09-05

Авторы:

Han Chen, Hanchen Wang, Hongmei Chen, Ying Zhang, Lu Qin, Wenjie Zhang

## Контекст Современные методы анализа вредоносных программ (вирусов, троянов, рокет-троянов) часто сталкиваются с проблемой ограниченности используемых данных. Большинство методов опираются на одноуровневые графы (например, Control Flow Graphs), представляющие программу как неорганизованный набор инструкций. Однако в реальности программы обладают сложной структурой, где различные функции взаимодействуют на разных уровнях: от высокоуровневых функциональных взаимодействий до низкоуровневой инструкции. Эта сложность часто остается недооцененной, что приводит к неэффективным решениям в области обнаружения и анализа вредоносных программ. ## Метод Для решения этой проблемы предлагается **HiGraph** — большая публичная база данных, основанная на двухуровневых графах: **Control Flow Graphs (CFGs)** и **Function Call Graphs (FCGs)**. CFGs представляют логическое содержимое функций, в то время как FCGs охватывают взаимодействия между функциями. Эта двухуровневая структура позволяет хранить информацию о семантических связях между уровнями программы, что является ключевым фактором для эффективного обнаружения вредоносных программ. Данные в HiGraph собраны из более чем **200 миллионов CFGs**, прикрепленных к **595 тысячам FCGs**, что делает этот ресурс крупнейшим в своем классе. ## Результаты Исследователи провели широкомасштабный анализ HiGraph, демонстрируя его эффективность в обнаружении вредоносных программ. Многочисленные эксперименты показали, что данный датасет позволяет отличать вредоносные и безопасные программы с высокой точностью, даже при использовании методов кода-обфаскации. Например, HiGraph может выделить не только уровень пользовательских функций, но и операции на уровне инструкций, что делает его более надежным в сравнении с одноуровневыми графами. ## Значимость HiGraph имеет огромный потенциал в различных областях, включая поиск вредоносных программ, анализ безопасности, а также моделирование и анализ сложных структур данных. Он предлагает оптимальную структуру для обнаружения вредоносного кода, а также является полезным инструментом для развития методов обнаружения новых видов вредоносных программ, которые могут быть скрыты в сложных иерархиях. ## Выводы HiGraph представляет собой революционное решение в области анализа вредоносных программ. Он демонстрирует, что использование двухуровневых графов позволяет охватить гораздо более широкий круг семантических связей в программном коде, что делает его ключевым для развития будущих исследований в области безопасности информационных технологий. Дальнейшими направлениями могут стать расши

Annotation:

The advancement of graph-based malware analysis is critically limited by the absence of large-scale datasets that capture the inherent hierarchical structure of software. Existing methods often oversimplify programs into single level graphs, failing to model the crucial semantic relationship between high-level functional interactions and low-level instruction logic. To bridge this gap, we introduce \dataset, the largest public hierarchical graph dataset for malware analysis, comprising over \tex...

ID: 2509.02113v1 cs.LG, cs.AI, cs.CR, cs.SI

arXiv PDF

📄 SafeProtein: Red-Teaming Framework and Benchmark for Protein Foundation Models

2025-09-05

Авторы:

Jigang Fan, Zhenghong Zhou, Ruofan Jin, Le Cong, Mengdi Wang, Zaixi Zhang

## Контекст Построение protein foundation models (PFMs) представляет собой ключевой аспект развития систем понимания и моделирования белков. Эти модели опираются на последовательности аминокислот и используют глубокое обучение для решения проблем, связанных с пониманием и моделированием белков. Несмотря на их неоценимую полезность в биологических исследованиях, технологиях частичного синтеза и других областях, они не являются иммунными к злоупотреблению. Например, PFMs могут быть использованы для синтеза белков с биологически опасными свойствами, что может привести к серьезным последствиям. Однако существующие методы тестирования и аудита PFMs недостаточно систематизированы, что создает риск появления серьезных проблем безопасности в использовании таких моделей. ## Метод SafeProtein представляет собой первую систему red-teaming, разработанную специально для PFMs. Методология SafeProtein основывается на комбинации модального предложения и трансформационной технологии. Multimodal prompt engineering используется для формирования надёжных запросов, которые позволяют тестировать модели безопасности PFMs. Для поиска потенциальных угроз используется инновационная техника heuristic beam search, которая позволяет расширить поиск возможных угроз, охватив многообразие вариантов поведения моделей. Эта архитектура обеспечивает многоуровневый подход к анализу уязвимостей PFMs и позволяет глубоко раскрыть биологические риски, связанные с их использованием. ## Результаты Используя SafeProtein, авторы провели эксперименты на нескольких современных PFMs, включая ESM3, и получили высокие результаты в проведении тестирования безопасности. Тесты показали, что модели, такие как ESM3, подвержены опасностям, таким как jailbreak-атаки, с успешной стойкостью до 70%. Эти результаты подтверждают значительные биологические и системные риски, связанные с нехваткой тестирования безопасности PFMs. Также был разработан SafeProtein-Bench, который включает в себя руководство по классификации угроз, многомодальные данные и протоколы экспериментов, позволяющие проводить тщательные эксперименты для тестирования и оценки безопасности PFMs. ## Значимость SafeProtein представляет собой важный вклад в область анализа и защиты PFMs. Он предоставляет мощный инструмент для анализа угроз безопасности, который может быть использован в различных приложениях, таких как биоинформатика, технологии построения белков, и синтез белков. Результаты SafeProtein показывают, что существуют серьезные проблемы в полной безопасности PFMs, и что эти модели должны быть подвергнуты тщательному тестированию. Обнаружение этих проблем может способствовать развитию новых

Annotation:

Proteins play crucial roles in almost all biological processes. The advancement of deep learning has greatly accelerated the development of protein foundation models, leading to significant successes in protein understanding and design. However, the lack of systematic red-teaming for these models has raised serious concerns about their potential misuse, such as generating proteins with biological safety risks. This paper introduces SafeProtein, the first red-teaming framework designed for protei...

ID: 2509.03487v1 cs.LG, cs.AI, cs.CR, q-bio.BM, q-bio.QM

arXiv PDF

📄 Safe-Control: A Safety Patch for Mitigating Unsafe Content in Text-to-Image Generation Models

2025-09-02

Авторы:

Xiangtao Meng, Yingkai Dong, Ning Yu, Li Wang, Zheng Li, Shanqing Guo

#### Контекст Текстово-изображенческие (Text-to-Image, T2I) генерирующие модели позволяют автоматически создавать изображения на основе текстовых описаний. Однако эти модели не освобождены от риска использования в ущемлении, нарушении закона или других негативных целях. Например, модели могут генерировать вредоносное изображение в ответ на вредоносное запроса, что создает серьёзные безопасности. Этот факт делает необходимым развитие систем, которые могут эффективно снижать риск генерирования небезопасного контента. Несмотря на усилия разработчиков моделей, существующие системы безопасности остаются либо разрушимыми под условиями распространения, либо требуют значительных модификаций модели. Это стремится устранить Safe-Control, предложив новый подход к безопасности для T2I-моделей. #### Метод Safe-Control представляет собой новую систему безопасности, которая может быть добавлена в существующую модель T2I без необходимости серьёзных модификаций. Её основная идея заключается в использовании данных-основанных стратегий для создания "патчей" безопасности, которые могут адаптироваться к различным моделям. Это достигается путём внедрения специальных управляющих сигналов, которые могут снизить вероятность генерирования вредоносного контента. Метод Safe-Control базируется на технике плагинов, что позволяет ему быть легко применимым к различным моделям с одинаковой архитектурой. Таким образом, можно создавать различные патчи для разных моделей и объединять их в один универсальный. #### Результаты В ходе исследования были проанализированы шесть различных текстово-изображенческих моделей с одинаковой архитектурой. Метод Safe-Control был протестирован на генерировании изображений в условиях вредоносных запросов и атак, а также в условиях нормального использования. Результаты показали, что Safe-Control эффективно снижает вероятность генерирования небезопасного контента до 7%, что значительно ниже уровня, достигнутого другими существующими методами (которые в среднем отдают 20%). В то же время, Safe-Control не приводит к потерям в качестве изображения или убыванию текстовой привязки. #### Значимость Safe-Control может применяться в различных областях, где необходимо уменьшить риск генерирования вредоносного контента. Это могут быть системы генерирования изображений для учёбы, развлечений, или даже для безопасного использования в коммерческих проектах. Safe-Control обладает высокой гибкостью и может быть адаптирован для разных моделей, что сделает его полезным для различных сценариев использования. Этот подход может способст

Annotation:

Despite the advancements in Text-to-Image (T2I) generation models, their potential for misuse or even abuse raises serious safety concerns. Model developers have made tremendous efforts to introduce safety mechanisms that can address these concerns in T2I models. However, the existing safety mechanisms, whether external or internal, either remain susceptible to evasion under distribution shifts or require extensive model-specific adjustments. To address these limitations, we introduce Safe-Contr...

ID: 2508.21099v1 cs.CV, cs.AI, cs.CR

arXiv PDF

📄 Entropy-Based Non-Invasive Reliability Monitoring of Convolutional Neural Networks

2025-09-02

Авторы:

Amirhossein Nazeri, Wael Hafez

## Контекст Convolutional Neural Networks (CNNs) являются основой современных систем компьютерного зрения, достигших неподражаемой точности в задачах распознавания изображений. Однако эти сети остаются уязвимыми к атакам с адверсарными помехами — подавленными модификациями входа, которые приводят к неверному классификационному решению с высокой уверенностью. Обнаружение таких вторжений требует, как правило, дорогостоящей ре-тренировки сети, изменения её архитектуры или снижения точности на чистых данных. Однако недавние исследования показали, что адверсарные помехи вызывают отклонения в структуре функций активации CNN, которые могут быть отслежены без изменения модели. Это открытие открыло путь к самодиагностическим системам, которые могут определять адверсарные вторжения в реальном времени без ущерба для производительности. ## Метод Мы предлагаем метод основанный на энтропии для мониторинга надежности CNN неинвазивным способом. Метод использует многопоточный мониторинг энтропии во входных слоях CNN, оперируя степенью распределения энтропии в выходных функциях. Для экспериментов была использована модель VGG-16, подвергнутай атакам типа FGSM и PGD. Сравнение чистых входных данных с адверсарными помехами проводилось с использованием критерия Шапкирова–Фишера для вычисления разницы между распределениями энтропии. Этот подход позволил выделить существенные отличия в структуре активаций CNN при отклике на адверсарные входы. ## Результаты Исследования показали, что адверсарные вторжения вызывают существенные отклонения в распределении энтропии во входных слоях VGG-16, особенно в ранних слоях. Эти отклонения отличаются на 7% по сравнению с чистыми входами, что создает возможность выделить адверсарные входы с 90% точностью. Использование критерия Шапкирова–Фишера позволило достичь заметных улучшений в обнаружении с низкими значениями злонамеренных ошибок (фальсиды и false negatives), равными приблизительно 20%. Эти результаты доказывают, что CNN могут быть эффективно мониторины по их энтропийным сигналам, не требуя каких-либо модификаций модели. ## Значимость Наш подход может быть применен в различных областях, где релевантность и надежность сетей CNN играют ключевую роль, таких как безопасность видеонаблюдения, системы распознавания голоса и медицинское искусственное интеллект. Главными преимуществами являются его инвазивность, низкий расход ресурсов и возможность реализации на реальном железе в реальном времени. Это может стать основой для развития систем, которые не только обнаружят адверсарные вторжения, но и

Annotation:

Convolutional Neural Networks (CNNs) have become the foundation of modern computer vision, achieving unprecedented accuracy across diverse image recognition tasks. While these networks excel on in-distribution data, they remain vulnerable to adversarial perturbations imperceptible input modifications that cause misclassification with high confidence. However, existing detection methods either require expensive retraining, modify network architecture, or degrade performance on clean inputs. Here ...

ID: 2508.21715v1 cs.CV, cs.AI, cs.CR, cs.IT, eess.IV, math.IT

arXiv PDF

📄 DynaMark: A Reinforcement Learning Framework for Dynamic Watermarking in Industrial Machine Tool Controllers

2025-09-02

Авторы:

Navid Aftabi, Abhishek Hanchate, Satish Bukkapatnam, Dan Li

## Контекст Industry 4.0 позволяет интегрировать машины, системы управления и производственные процессы в одну систему, обеспечивая более высокую производительность и автоматизацию. Однако такая интеграция сопряжена с риском атак, таких как реплей-атаки, когда несанкционированные пользователи используют устаревшую сенсорную информацию для манипуляции с актоуаторами. Это может привести к серьезным последствиям, включая повреждение оборудования и потерю качества продукции. Динамическая водяная метка (dynamic watermarking) представляет собой метод, который может открыть такие манипуляции, отображая искажения в данных. Однако существующие схемы динамической водяней метки предполагают линейно-Гауссовые динамики и постоянные статистические параметры водяных меток, что делает их неэффективными для использования на MTCs (machine tool controllers) с временно меняющимися динамиками и частично закрытыми моделями. Таким образом, требуется развитие более универсального подхода. ## Метод Мы предлагаем DynaMark, фреймворк на основе усиления обучения (reinforcement learning), который использует Марковский процесс решений (Markov decision process, MDP) для моделирования динамической водяной метки. DynaMark обучает адаптивный политический механизм (policy), который динамически меняет ковариацию нулевого-среднего Гауссового водяного знака с использованием доступных измерений и обратной связи детектора. Он не требует предварительного знания о системе. Для реализации этого фреймворка мы разработали механизм байесовского обновления уверенности (Bayesian belief updating) для реального времени, который работает в системах с линейными динамиками. Этот метод основывается на универсальной структуре MDP, которая не зависит от конкретных системных предположений, и позволяет DynaMark эффективно работать на MTCs. ## Результаты Мы проводили эксперименты с использованием цифровой модели Siemens Sinumerik 828D и физического тестбеда на основе шагового мотора. На цифровой модели DynaMark снизил энергозатраты на водяную метку на 70% в сравнении с базовым подходом постоянной вариации, при этом сохранив назначенный траектории. Он также поддерживает среднюю задержку обнаружения (detection delay), равную одному интервалу выбора. Физический тестбед показал, что DynaMark сразу же вызывает аварийные сигналы при меньшем ущербе для производительности контроллера, превосходя существующие бенчмарки. Эти результаты подтверждают эффективность DynaMark в раскрытии реплей-атак и сохранении производительности системы. ## Значимость DynaMark может применяться в различных производственных системах, включая цифровые системы управления, где требуется обнаружение

Annotation:

Industry 4.0's highly networked Machine Tool Controllers (MTCs) are prime targets for replay attacks that use outdated sensor data to manipulate actuators. Dynamic watermarking can reveal such tampering, but current schemes assume linear-Gaussian dynamics and use constant watermark statistics, making them vulnerable to the time-varying, partly proprietary behavior of MTCs. We close this gap with DynaMark, a reinforcement learning framework that models dynamic watermarking as a Markov decision pr...

ID: 2508.21797v1 eess.SY, cs.AI, cs.CR, cs.LG, cs.SY, stat.AP

arXiv PDF

1
2
11
12
13
14
15
16
17

Показано 121 - 130 из 162 записей