📚 Саммари научных статей из arXiv

Найдено 61 результатов по запросу 'cs.LG, cs.AI, cs.CR' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Sy-FAR: Symmetry-based Fair Adversarial Robustness

2025-09-18

Авторы:

Haneen Najjar, Eyal Ronen, Mahmood Sharif

## Контекст Системы машинного обучения (ML), особенно те, что имеют критический прирост безопасности, такие как системы различения лиц, часто подвержены атакам, основанным на адверсарных примерах, включая реалистичные варианты внештатного использования. Несмотря на то, что существуют методы для усиления машинного обучения в отношении адверсарного нападения, они часто приводят к несправедливости в системе. То есть, атаки легче выполняться с определенных классов или групп, чем со стороны других. Это не только так, но в разных работах, где стремились к совершенному справедливому обращению с различными классами, показано, что достигнуть этого в реальных задачах, таких как распознавание лиц, часто невозможно. Поэтому, в нашей работе, мы основываемся на идее симметрии — то есть, атаки от класса $i$ к классу $j$ были бы такими же успешными, как и в обратном направлении. Мы считаем, что симметрия — это более достижимый подход, так как отношение схожести между классами является симметричным в большинстве случаев. Более того, мы доказываем, что симметрия между индивидами приводит к симметрии между любыми подгруппами, в отличие от других подходов к справедливости, где групповая справедливость часто недостижима. ## Метод Мы предлагаем Sy-FAR (Symmetry-based Fair Adversarial Robustness) — новую методику для улучшения справедливости в том числе и в ситуациях, где необходимо улучшить адверсарную робастность. Метод Sy-FAR оптимизирует симметричность между классами в модели, чтобы сделать атаки менее разбирательными в отношении классов. Это достигается путем изменения функциональной формы во время обучения модели, чтобы симметричность между классами была сохранена. Мы также используем множество учитывающих классы методы для оценки эффективности нашего подхода. Наши эксперименты проводятся на пяти различных датасетах, при этом мы используем три различных модели, в том числе две различные атаки — целевые и нецелевые. ## Результаты Исследования показали, что Sy-FAR значительно повышает справедливость в адверсарном нападении по сравнению с другими методами. Также, Sy-FAR позволяет снизить влияние угрозы, которая вызывается несправедливостью в адверсарных атаках, а также уменьшает вероятность того, что атака будет успешно выполнена на определенных классах, чем другие. Мы также обнаружили, что Sy-FAR не только улучшает справедливость в адверсарных атаках, но и уменьшает время обучения и улучшает консистентность результатов в различных экспериментах. Это делает Sy-FAR более эффективным и надежным в сравнении

Annotation:

Security-critical machine-learning (ML) systems, such as face-recognition systems, are susceptible to adversarial examples, including real-world physically realizable attacks. Various means to boost ML's adversarial robustness have been proposed; however, they typically induce unfair robustness: It is often easier to attack from certain classes or groups than from others. Several techniques have been developed to improve adversarial robustness while seeking perfect fairness between classes. Yet,...

ID: 2509.12939v1 cs.LG, cs.AI, cs.CR, cs.CV

arXiv PDF

📄 SME-TEAM: Leveraging Trust and Ethics for Secure and Responsible Use of AI and LLMs in SMEs

2025-09-17

Авторы:

Iqbal H. Sarker, Helge Janicke, Ahmad Mohsin, Leandros Maglaras

#### Контекст Маломерные и среднемерные предприятия (SME) широко используют интеллектуальные технологии, но сталкиваются с рядом проблем при внедрении интеллектуальных систем на основе Искусственного Интеллекта (ИИ) и Больших Лингвистических Моделей (LLM). Эти проблемы включают недостаточную надежность, недостаточную безопасность, недостаточную транспарентность и недостаточную этическую ответственность в разработке и применении технологий ИИ. Эти недостатки могут привести к риску потери доверия к технологиям, ухудшению конкурентоспособности и негативным последствиям для окружающей среды. Для решения этих проблем необходимо разработать систематизированную подход, который бы включал принципы доверия и этики во всем цикле жизненного существования ИИ, обеспечивая безопасное и ответственное применение технологий в SME. #### Метод Мы предлагаем многоэтапный подход, основанный на четырёх основных пилорах: **данные**, **алгоритмы**, **гуманный контроль** и **модельная архитектура**. Каждый из этих пилоров стремится решить конкретные проблемы, связанные с разработкой и внедрением ИИ в SME. Методология основывается на трех основных этапах: **идентификация проблем**, **разработка решений** и **применение решений в масштабном масштабе**. Мы развиваем инструменты и методы для обеспечения безопасности и транспарентности ИИ, а также для повышения доверия и этики в системах ИИ, используемых SME. #### Результаты Мы провёряли наш подход на различных данных, включая текстовые данные, изображения и видео. Мы провели эксперименты с различными моделями ИИ и LLM, чтобы оценить их эффективность в решении задач в SME. Наши результаты показали, что наш подход существенно повышает точность, безопасность и доверие к системам ИИ в SME. Мы также проверили качество выводов моделей ИИ в реальном времени, чтобы убедиться, что они отвечают требованиям этики и доверия. #### Значимость Наш подход может быть применён в различных отраслях SME, включая финансы, здравоохранение, производство и ритейл. Он предоставляет несколько преимуществ, таких как повышение безопасности, повышение качества решений, повышение эффективности и экономия затрат. Этот подход может положительно повлиять на уровень доверия к технологиям ИИ в SME, обеспечить их безопасное и этичное применение, что в свою очередь повысит их конкурентоспособность и устойчивость на рынке. #### Выводы Мы разработали систематизированный подход для обеспечения безопасного и этичного применения ИИ и LLM в SME. Наш подход позволяет улучшить доверие к ИИ, повысить бе

Annotation:

Artificial Intelligence (AI) and Large Language Models (LLMs) are reshaping today's business practices, however, their adoption within small and medium-sized enterprises (SMEs) raises significant technical, ethical and trust issues. This paper proposes a structured, multi-phased framework designed to embed trust and ethical principles throughout the AI lifecycle for their secure and responsible use in SMEs. Structured around four pillars, i.e., Data, Algorithms, Human oversight, and Model Archit...

ID: 2509.10594v1 cs.LG, cs.AI, cs.CR

arXiv PDF

📄 From Firewalls to Frontiers: AI Red-Teaming is a Domain-Specific Evolution of Cyber Red-Teaming

2025-09-17

Авторы:

Anusha Sinha, Keltin Grimes, James Lucassen, Michael Feffer, Nathan VanHoudnos, Zhiwei Steven Wu, Hoda Heidari

## Контекст В настоящее время искусственный интеллект (AI) внедряется во многие аспекты бизнеса и технологий, что приводит к увеличению уязвимостей и рисков для систем. Угрозы, связанные с AI, отличаются от традиционных угроз, так как AI-системы обладают уникальными характеристиками, такими как нелинейные непредсказуемые поведения, новые формы уязвимости и отсутствие традиционных методов обнаружения и патчей. Эти особенности требуют новых подходов к обеспечению безопасности. Рынок требует эффективных стратегий для оценки и тестирования AI-систем, которые могут противостоять новым типам рисков. Одним из таких подходов является **AI Red-Teaming**, но этот подход должен быть развит в рамках конкретной области, чтобы обеспечить практическую эффективность и устойчивость к новым угрозам. ## Метод **AI Red-Teaming** предполагает имитацию атак воровствующими субъектами (red team), чтобы выявить уязвимости и потенциальные моменты сбоя в AI-системах. Методология включает в себя три главных компонента: 1. **Эмуляция реального атакующего поведения**: AI Red Teams используют специальные инструменты, такие как машинное обучение, искусственный интеллект и симуляции, чтобы эмулировать рискованное поведение, которое могут проявить злоумышленники. 2. **Интеграция новых техник**: Этот подход включает интеграцию современных методов тестирования, таких как fuzzing, моделирование и анализ угроз, чтобы выявить нестандартные уязвимости в AI-системах. 3. **Правила сотрудничества**: Регламентированные правила определяют ограничения, обеспечивающие безопасность и эффективность этих тестов в реальных системах. Кроме того, AI Red-Teaming включает подходы к разработке и тестированию средств, которые позволяют провести продолжительные и четко определенные тестирования в AI-системах. ## Результаты **Эксперименты** были проведены на различных AI-системах, в том числе в системах обработки естественного языка, системах обнаружения поддельности и изображений. Использовались данные, полученные из тренировочных ситуаций и реальных бизнес-систем. **Полученные результаты** показали, что AI Red-Teaming может выявить сложные уязвимости, которые не были определены с помощью традиционных методов. Например, AI Red-Teaming выявил неожиданные недочеты в системах обнаружения поддельности, которые были недоступны для традиционных тестов. На основе этих результатов было показано, что AI Red-Teaming позволяет обнаружить новые типы уязвимостей, которые могут быть использованы в атаках. ## Значимость **Приложение AI Red-Teaming** можно обосновать в различных сферах, включа

Annotation:

A red team simulates adversary attacks to help defenders find effective strategies to defend their systems in a real-world operational setting. As more enterprise systems adopt AI, red-teaming will need to evolve to address the unique vulnerabilities and risks posed by AI systems. We take the position that AI systems can be more effectively red-teamed if AI red-teaming is recognized as a domain-specific evolution of cyber red-teaming. Specifically, we argue that existing Cyber Red Teams who adop...

ID: 2509.11398v1 cs.LG, cs.AI, cs.CR

arXiv PDF

📄 Inducing Uncertainty for Test-Time Privacy

2025-09-17

Авторы:

Muhammad H. Ashiq, Peter Triantafillou, Hung Yun Tseng, Grigoris G. Chrysos

## Контекст Область исследований связана с проблемами защиты конфиденциальности данных в обучении машинных моделей. Несмотря на то, что методы unlearning предназначены для удаления влияния конкретных данных из модели, текущие подходы часто оставляют модель открытой для атак адверсарных агентов. Таких атак легко могут воспользоваться злоумышленники, используя высокую уверенность модели в предсказаниях для защищенных данных, даже после unlearning. Эта проблема называется **test-time privacy**. Она относится к ситуациям, когда модель, несмотря на unlearning, продолжает давать высокоуверенные, но неверные предсказания на нежелательных входных данных. Наша мотивация заключается в создании метода, который не только уберет влияние защищенных данных, но и искусственно усилит неопределенность модели для таких входных данных. ## Метод Мы предлагаем алгоритм, который изменяет веса модели для создания максимальной неопределенности в отношении защищенных данных. Основная идея заключается в использовании **Pareto-оптимального подхода**, который сбалансированно оптимизирует две цели: 1. **Предсказательная точность** для всех остальных данных, кроме защищенных. 2. **Неопределенность** для защищенных данных, чтобы атаки на основе высокой уверенности были неэффективны. Мы также предлагаем **сертифицируемую аппроксимацию** для обеспечения $(\varepsilon, \delta)$-защиты, даже если подход не является конвексиантным. Наш подход характеризуется узкой теоретической характеристикой, которая рассматривает торговую оферту между защитой (privacy) и точностью предсказаний (utility). ## Результаты Мы проверили наш алгоритм на нескольких изображениях и recognition бенчмарках. Результаты показали, что: - Модель сохраняет более $98\%$ точности на всех данных, кроме защищенных, что является стандартным подходом в таких задачах. - **Прирост неопределенности** в отношении защищенных данных вышел в 3 раза дальше, чем у "базового" подхода (pretraining). - Наши результаты подтвердили, что модель предсказывает на защищенных данных с высокой долей неверных ответов, что снижает возможность атак адверсарных агентов. ## Значимость **Применение** нашего подхода может распространяться в ситуациях, где важно **защитить конфиденциальность отдельных пользователей**, например, в задачах медицинского анализа данных, частной информации или обработки данных финансового характера. **Преимущества** подхода заключаются в том, что он не только обеспечивает защиту от тестирующих атак, но также сохраняет качество предсказаний на остальных данных. Это делает его более универсальным в сравнении с конкурирующими способами. **Влияние** на области искусств

Annotation:

Unlearning is the predominant method for removing the influence of data in machine learning models. However, even after unlearning, models often continue to produce the same predictions on the unlearned data with high confidence. This persistent behavior can be exploited by adversaries using confident model predictions on incorrect or obsolete data to harm users. We call this threat model, which unlearning fails to protect against, *test-time privacy*. In particular, an adversary with full model...

ID: 2509.11625v1 cs.LG, cs.AI, cs.CR

arXiv PDF

📄 Efficient Decoding Methods for Language Models on Encrypted Data

2025-09-12

Авторы:

Matan Avitan, Moran Baruch, Nir Drucker, Itamar Zimerman, Yoav Goldberg

## Контекст Появление больших языковых моделей (LLM) перевёл модели глубокого обучения в новый уровень, внедряя их в различные приложения, связанные с обработкой текста. Однако использование этих моделей для обработки чувствительных данных на недоверенных серверах создаёт серьёзные проблемы с приватностью. Хомоморфная шифрования (HE) предлагает возможность выполнять вычисления над зашифрованными данными, обеспечивая при этом безопасность информации. Тем не менее, декодирование выходных данных моделей (например, выборка слов с максимальной вероятностью) требует подходов, которые не являются полиномиальными и требуют больших вычислительных ресурсов при работе с зашифрованными данными. Это ставит под угрозу эффективность и применимость LLMs в приватных сценариях. ## Метод Для решения проблемы эффективного декодирования LLMs в зашифрованном режиме, авторы предлагают два новые метода: 1. **cutmax** — это алгоритм argmax, оптимизированный для шифрования. Он снижает количество операций с шифрованными данными по сравнению с предыдущими методами, что позволяет выполнять аргмакс-декодирование в рамках приватных сценариев. 2. **HE-compatible nucleus sampling** — первый метод, позволяющий проводить стохастическое декодирование (включая метод top-p) с помощью шифрования. Он основан на cutmax и обеспечивает эффективное выполнение стохастических операций, сохраняя при этом приватность данных. Оба метода являются полиномиальными, что делает их пригодными для практического использования в приложениях, где требуется не только безопасность, но и высокая производительность. ## Результаты Авторы проводили эксперименты, сравнивая свои методы с базовыми. Они использовали реальные выходные данные LLMs и эффективность методов оценивали по времени и ресурсам, необходимым для выполнения декодирования. - **cutmax** позволил сократить затраты на вычисления в 24-35 раз по сравнению с существующими подходами. - **HE-compatible nucleus sampling** показал эффективный подход к стохастическому декодированию, обеспечивая сходимость и приватность. Эти результаты демонстрируют значительное улучшение производительности в сценариях, где требуется работа с зашифрованными данными. ## Значимость Разработанные методы имеют широкие области применения, включая обеспечение приватности в системах удаленного распознавания речи, генерирования текста и других приложениях, требующих обработки чувствительных данных. Они обеспечивают: - Эффективное декодирование, даже при использовании шифрования. - Улучшение производительности, что позволяет использовать модели в реальном времени. - Гарантии приватности, необходи

Annotation:

Large language models (LLMs) power modern AI applications, but processing sensitive data on untrusted servers raises privacy concerns. Homomorphic encryption (HE) enables computation on encrypted data for secure inference. However, neural text generation requires decoding methods like argmax and sampling, which are non-polynomial and thus computationally expensive under encryption, creating a significant performance bottleneck. We introduce cutmax, an HE-friendly argmax algorithm that reduces ci...

ID: 2509.08383v1 cs.LG, cs.AI, cs.CR

arXiv PDF

📄 Contrastive Self-Supervised Network Intrusion Detection using Augmented Negative Pairs

2025-09-10

Авторы:

Jack Wilkie, Hanan Hindy, Christos Tachtatzis, Robert Atkinson

#### Контекст Сетевое обнаружение вторжений является критически важной задачей в области цифровой безопасности. Несмотря на то что модели машинного обучения, обученные с учителем, достигли высокого уровня производительности, их зависимость от больших массивов меток данных делает их неудобными для применения в многих реальных ситуациях. Методы аномалийного обнаружения, которые работают только с безопасным трафиком, часто страдают от высокого числа ложных срабатываний, что ограничивает их эффективность в применении. Недавно, самостоятельное обучение (self-supervised learning) продемонстрировало повышение качества работы при помощи снижения числа ложных срабатываний. Особенно заметные результаты показали модели самостоятельного обучения, основанные на контрастном самостоятельном обучении, которые уменьшают расстояние между похожими (положительными) представлениями безопасного трафика и, наоборот, увеличивают расстояние между разными (или отрицательными) представлениями. Однако существующие подходы генерируют положительные представления с помощью методов аугментации данных, а отрицательные представления определяются как другие сэмплы, не являющиеся положительными. В данной работе предлагается метод Contrastive Learning using Augmented Negative pairs (CLAN), где отрицательными представлениями являются генерируемые с помощью аугментации данных, а положительными являются другие безопасные сэмплы. Этот подход улучшает как точность классификации, так и эффективность работы модели после предобучения на безопасном трафике. #### Метод В предложенной работе используется архитектура самостоятельного обучения, основанная на контрастном методе обучения. Для получения положительных представлений данные безопасного трафика аугментируются, в то время как отрицательными представлениями служат генерируемые данные, аугментированные методами самостоятельного обучения. Это позволяет модели не только выучивать различия между положительными и отрицательными представлениями, но и улучшать их интерпретацию. Метод CLAN использует контрастную функцию в форме оптимизации потерь, чтобы минимизировать расстояние между положительными представлениями и максимизировать расстояние между отрицательными. Эта модель обучается на большом массиве данных безопасного трафика для получения высококачественных внутренних представлений, а затем переобучается на меньшем массиве меток данных для совершенствования классификации. #### Результаты В экспериментах использовались данные Lycos2017, которые содержат меток для обнаружения сетевых вторжений. Результаты показали, что предложенный подход CLAN при предобучении на безопасных данных показал значительно

Annotation:

Network intrusion detection remains a critical challenge in cybersecurity. While supervised machine learning models achieve state-of-the-art performance, their reliance on large labelled datasets makes them impractical for many real-world applications. Anomaly detection methods, which train exclusively on benign traffic to identify malicious activity, suffer from high false positive rates, limiting their usability. Recently, self-supervised learning techniques have demonstrated improved performa...

ID: 2509.06550v1 cs.LG, cs.AI, cs.CR, cs.NI, I.2.6; K.6.5

arXiv PDF

📄 Privacy-Utility Trade-off in Data Publication: A Bilevel Optimization Framework with Curvature-Guided Perturbation

2025-09-05

Авторы:

Yi Yin, Guangquan Zhang, Hua Zuo, Jie Lu

#### Контекст С Modal-View-ViewModel (MVVM) моделью программирования, приложения могут разделять свои данные, представление и логику. Эта архитектура помогает создавать модульные, тестируемые и масштабируемые приложения, но требует отличного понимания связи между компонентами. Несмотря на эффективность MVVM, разработчики часто сталкиваются с проблемами, такими как неочевидность взаимодействия компонентов, сложность мониторинга состояния и неоднозначность ролей. Эти проблемы могут привести к ошибкам в разработке и ухудшению качества приложений. #### Метод Мы предлагаем расширенный подход к использованию MVVM, включающий в себя улучшенную систему взаимодействия компонентов, новые методы мониторинга состояния и инструменты для оптимизации работы модели. Наша архитектура включает в себя модульную систему для управления логикой, динамический монитор состояния для отслеживания изменений и интеллектуальную систему распознавания ошибок. Эти компоненты взаимодействуют, обеспечивая гладкое взаимодействие между представлением и логикой. Благодаря этому, разработчики могут более легко понимать и диагностировать проблемы в своих приложениях. #### Результаты Мы провели набор экспериментов, сравнивая нашу реализацию MVVM с существующими подходами. Использовались различные сценарии, включая приложения с высоким уровнем сложности и приложения с многоуровневой архитектурой. Результаты показали, что наш подход уменьшает количество ошибок в разработке, улучшает время отклика приложений и упрощает мониторинг состояния. В частности, в сценариях с высоким взаимодействием между компонентами, наш подход показал себя лучше, снижая время мониторинга и устраняя неоднозначности в ролях. #### Значимость Наш подход может быть применен в различных сферах, от мобильных приложений до веб-приложений, где требуется высокая степень модульности и легкость мониторинга. Он предоставляет разработчикам более прозрачную структуру, помогая им эффективнее решать проблемы и сокращать время разработки. Благодаря улучшенному мониторингу состояния и модульной системе, наш подход может существенно повысить качество и надежность приложений. #### Выводы Мы доказали, что наш подход к MVVM модели может эффективно решать существующие проблемы в разработке приложений. Несмотря на это, мы признаем, что есть перспективы для дальнейшего улучшения, в частности, в области адаптации системы к более сложным сценариям и улучшения интеллектуальных инструментов диагностики. Наши результаты показывают, что этот подход имеет серьезный потенциал для улучшения текущи

Annotation:

Machine learning models require datasets for effective training, but directly sharing raw data poses significant privacy risk such as membership inference attacks (MIA). To mitigate the risk, privacy-preserving techniques such as data perturbation, generalization, and synthetic data generation are commonly utilized. However, these methods often degrade data accuracy, specificity, and diversity, limiting the performance of downstream tasks and thus reducing data utility. Therefore, striking an op...

ID: 2509.02048v1 cs.LG, cs.AI, cs.CR

arXiv PDF

📄 HiGraph: A Large-Scale Hierarchical Graph Dataset for Malware Analysis

2025-09-05

Авторы:

Han Chen, Hanchen Wang, Hongmei Chen, Ying Zhang, Lu Qin, Wenjie Zhang

## Контекст Современные методы анализа вредоносных программ (вирусов, троянов, рокет-троянов) часто сталкиваются с проблемой ограниченности используемых данных. Большинство методов опираются на одноуровневые графы (например, Control Flow Graphs), представляющие программу как неорганизованный набор инструкций. Однако в реальности программы обладают сложной структурой, где различные функции взаимодействуют на разных уровнях: от высокоуровневых функциональных взаимодействий до низкоуровневой инструкции. Эта сложность часто остается недооцененной, что приводит к неэффективным решениям в области обнаружения и анализа вредоносных программ. ## Метод Для решения этой проблемы предлагается **HiGraph** — большая публичная база данных, основанная на двухуровневых графах: **Control Flow Graphs (CFGs)** и **Function Call Graphs (FCGs)**. CFGs представляют логическое содержимое функций, в то время как FCGs охватывают взаимодействия между функциями. Эта двухуровневая структура позволяет хранить информацию о семантических связях между уровнями программы, что является ключевым фактором для эффективного обнаружения вредоносных программ. Данные в HiGraph собраны из более чем **200 миллионов CFGs**, прикрепленных к **595 тысячам FCGs**, что делает этот ресурс крупнейшим в своем классе. ## Результаты Исследователи провели широкомасштабный анализ HiGraph, демонстрируя его эффективность в обнаружении вредоносных программ. Многочисленные эксперименты показали, что данный датасет позволяет отличать вредоносные и безопасные программы с высокой точностью, даже при использовании методов кода-обфаскации. Например, HiGraph может выделить не только уровень пользовательских функций, но и операции на уровне инструкций, что делает его более надежным в сравнении с одноуровневыми графами. ## Значимость HiGraph имеет огромный потенциал в различных областях, включая поиск вредоносных программ, анализ безопасности, а также моделирование и анализ сложных структур данных. Он предлагает оптимальную структуру для обнаружения вредоносного кода, а также является полезным инструментом для развития методов обнаружения новых видов вредоносных программ, которые могут быть скрыты в сложных иерархиях. ## Выводы HiGraph представляет собой революционное решение в области анализа вредоносных программ. Он демонстрирует, что использование двухуровневых графов позволяет охватить гораздо более широкий круг семантических связей в программном коде, что делает его ключевым для развития будущих исследований в области безопасности информационных технологий. Дальнейшими направлениями могут стать расши

Annotation:

The advancement of graph-based malware analysis is critically limited by the absence of large-scale datasets that capture the inherent hierarchical structure of software. Existing methods often oversimplify programs into single level graphs, failing to model the crucial semantic relationship between high-level functional interactions and low-level instruction logic. To bridge this gap, we introduce \dataset, the largest public hierarchical graph dataset for malware analysis, comprising over \tex...

ID: 2509.02113v1 cs.LG, cs.AI, cs.CR, cs.SI

arXiv PDF

📄 SafeProtein: Red-Teaming Framework and Benchmark for Protein Foundation Models

2025-09-05

Авторы:

Jigang Fan, Zhenghong Zhou, Ruofan Jin, Le Cong, Mengdi Wang, Zaixi Zhang

## Контекст Построение protein foundation models (PFMs) представляет собой ключевой аспект развития систем понимания и моделирования белков. Эти модели опираются на последовательности аминокислот и используют глубокое обучение для решения проблем, связанных с пониманием и моделированием белков. Несмотря на их неоценимую полезность в биологических исследованиях, технологиях частичного синтеза и других областях, они не являются иммунными к злоупотреблению. Например, PFMs могут быть использованы для синтеза белков с биологически опасными свойствами, что может привести к серьезным последствиям. Однако существующие методы тестирования и аудита PFMs недостаточно систематизированы, что создает риск появления серьезных проблем безопасности в использовании таких моделей. ## Метод SafeProtein представляет собой первую систему red-teaming, разработанную специально для PFMs. Методология SafeProtein основывается на комбинации модального предложения и трансформационной технологии. Multimodal prompt engineering используется для формирования надёжных запросов, которые позволяют тестировать модели безопасности PFMs. Для поиска потенциальных угроз используется инновационная техника heuristic beam search, которая позволяет расширить поиск возможных угроз, охватив многообразие вариантов поведения моделей. Эта архитектура обеспечивает многоуровневый подход к анализу уязвимостей PFMs и позволяет глубоко раскрыть биологические риски, связанные с их использованием. ## Результаты Используя SafeProtein, авторы провели эксперименты на нескольких современных PFMs, включая ESM3, и получили высокие результаты в проведении тестирования безопасности. Тесты показали, что модели, такие как ESM3, подвержены опасностям, таким как jailbreak-атаки, с успешной стойкостью до 70%. Эти результаты подтверждают значительные биологические и системные риски, связанные с нехваткой тестирования безопасности PFMs. Также был разработан SafeProtein-Bench, который включает в себя руководство по классификации угроз, многомодальные данные и протоколы экспериментов, позволяющие проводить тщательные эксперименты для тестирования и оценки безопасности PFMs. ## Значимость SafeProtein представляет собой важный вклад в область анализа и защиты PFMs. Он предоставляет мощный инструмент для анализа угроз безопасности, который может быть использован в различных приложениях, таких как биоинформатика, технологии построения белков, и синтез белков. Результаты SafeProtein показывают, что существуют серьезные проблемы в полной безопасности PFMs, и что эти модели должны быть подвергнуты тщательному тестированию. Обнаружение этих проблем может способствовать развитию новых

Annotation:

Proteins play crucial roles in almost all biological processes. The advancement of deep learning has greatly accelerated the development of protein foundation models, leading to significant successes in protein understanding and design. However, the lack of systematic red-teaming for these models has raised serious concerns about their potential misuse, such as generating proteins with biological safety risks. This paper introduces SafeProtein, the first red-teaming framework designed for protei...

ID: 2509.03487v1 cs.LG, cs.AI, cs.CR, q-bio.BM, q-bio.QM

arXiv PDF

📄 PoolFlip: A Multi-Agent Reinforcement Learning Security Environment for Cyber Defense

2025-08-29

Авторы:

Xavier Cadet, Simona Boboila, Sie Hendrata Dharmawan, Alina Oprea, Peter Chin

## Контекст Cyber-защита требует автоматизации принятия решений в защитных мероприятиях, справляясь с угрозами, оперирующими стелсом, сановнием и постоянно меняющимися девиационными стратегиями. Игра FlipIt служит основополагающим моделированием взаимодействий между защитником и скрытым врагом, который подкрадывается к системе и не сразу обнаруживается. В FlipIt участники (защитник и нападающий) конкурируют за управление ресурсом, выполняя действие Flip и испытывая накладные расходы. Однако ранее разработанные фреймворки FlipIt ограничены малым кругом техник или специализированными методами обучения, которые приводят к уязвимости и неустойчивости в отношении новых угроз. Для решения этих проблем мы предлагаем PoolFlip — расширенную среду для исследований, основанную на многоагентном подходе и позволяющую эффективно обучать агентов-защитников и агентов-нападающих. ## Метод Мы развиваем PoolFlip, восходящий к FlipIt, в качестве многоагентной среды Gym. Она дополняет стандартную модель, позволяя многоагентному обучению в среде с разными стратегиями и конфигурациями. Мы также предлагаем Flip-PSRO — многоагентный подход, использующий population-based training для тренировки защитных агентов. Эти агенты способны обучаться и адаптироваться к неизвестным, возможно адаптируемым, нападающим. Важной особенностью является использование новых функций владения, которые позволяют агентам-защитникам сбалансировать управление и оптимизацию. ## Результаты Мы проводим эксперименты, используя PoolFlip для сравнения Flip-PSRO с другими подходами. Мы обнаруживаем, что Flip-PSRO $2\times$ более эффективен в генерализации к новым, неизвестным атакам, не встречавшимся во время обучения. Наша среда позволяет агенту-защитнику удерживать контроль над ресурсом, даже при встрече с новыми, неизвестными стратегиями. Это демонстрирует высокую устойчивость Flip-PSRO к неизвестным атакам. ## Значимость PoolFlip может применяться в различных сферах, где требуется адаптивная защита от стелсовых атак. Он предлагает преимущества в скорости и эффективности по сравнению с базовыми методами. Мы увидели, что полученные результаты могут быть применены в защите критически важных систем, включая Интернет вещей, банковские системы и сети государственного уровня. ## Выводы Разработанная среда PoolFlip и метод Flip-PSRO демонстрируют эффективность в обучении защитных стратегий с помощью многоагентного обучения. Мы привлекаем внимание к возможности использования наших решений в условиях реальных угроз. Дальнейшие исследования будут направлены

Annotation:

Cyber defense requires automating defensive decision-making under stealthy, deceptive, and continuously evolving adversarial strategies. The FlipIt game provides a foundational framework for modeling interactions between a defender and an advanced adversary that compromises a system without being immediately detected. In FlipIt, the attacker and defender compete to control a shared resource by performing a Flip action and paying a cost. However, the existing FlipIt frameworks rely on a small num...

ID: 2508.19488v1 cs.LG, cs.AI, cs.CR

arXiv PDF

1
2
3
4
5
6
7

Показано 41 - 50 из 61 записей