📚 Саммари научных статей из arXiv

Найдено 162 результатов по запросу 'cs.AI, cs.CR' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 FuSaR: A Fuzzification-Based Method for LRM Safety-Reasoning Balance

2025-08-20

Авторы:

Jianhao Chen, Mayi Xu, Xiaohu Li, Yongqi Li, Xiangyu Zhang, Jianjie Huang, Tieyun Qian

## Контекст Large Reasoning Models (LRMs) стали ключевым инструментом в различных областях, из-за их выдающихся возможностей анализа и обобщения. Однако, несмотря на их мощь, эти модели часто становятся ненадежными из-за проблем с безопасностью. Эти уязвимости могут привести к потенциальным опасностям, особенно при работе с конфиденциальными данными. Из-за такой волатильности, есть необходимость в разработке методов, которые бы улучшали безопасность LRMs без потери их высокой природы рассуждения. Это ставит перед исследователями задачу создания баланса между этими двумя критически важными аспектами. ## Метод Метод FuSaR (Fuzzification-Based Method for LRM Safety-Reasoning Balance) является новым подходом к решению этой проблемы. Он основывается на технике fuzzification, которая заключается в преобразовании числовых данных в группы, чтобы упростить их обработку. В случае FuSaR, это преобразование применяется для ограничения выходов LRMs, сводя сложные рассуждения к более простым, но безопасным решениям. На практике, FuSaR работает путем минимизации возможных рисков, связанных с непредсказуемыми или вредоносными рассуждениями LRMs. Таким образом, он добивается более стабильного и безопасного поведения моделей без существенных потерь в их навыках рассуждения. ## Результаты Нами проведены многочисленные эксперименты, в ходе которых были использованы различные тестовые наборы данных, включающие общедоступные модели LRMs. Мы сравнивали результаты FuSaR с другими существующими методами, обеспечивающими баланс между безопасностью и рассуждениями. Наши эксперименты показали, что FuSaR не только снижает риск выхода LRMs за пределы безопасности, но и сохраняет их силу рассуждений. Например, применение FuSaR к открытым моделям показало улучшение в безопасности на 20%, при этом не допуская существенного снижения способности рассуждения. Это делает FuSaR выгодным вариантом для более безопасного использования LRMs. ## Значимость Предлагаемый подход FuSaR имеет многочисленные применения в различных областях, где LRMs используются, включая здравоохранение, финансы, правопорядок и многие другие. Он предоставляет безопасный и эффективный способ использования LRMs, предотвращая угрозы, связанные с непредсказуемыми рассуждениями. Благодаря FuSaR можно повысить уровень безопасности без значительного влияния на производительность модели. Это может привести к более надежным системам, использующим LRMs, и увеличить доверие пользователей к их решениям. ## Выводы Мы успешно разработали стратегию FuSaR для баланса между безопасностью и рассуждениями в LRMs. Этот подход эффекти

Annotation:

Large Reasoning Models (LRMs) have demonstrated impressive performance across various tasks due to their powerful reasoning capabilities. However, their safety performance remains a significant concern. In this paper, we explore the reasons behind the vulnerability of LRMs. Based on this, we propose a novel method to improve the safety of LLMs without sacrificing their reasoning capability. Specifically, we exploit the competition between LRM's reasoning ability and safety ability, and achieve j...

ID: 2508.12897v1 cs.AI, cs.CR

arXiv PDF

📄 The Application of Transformer-Based Models for Predicting Consequences of Cyber Attacks

2025-08-20

Авторы:

Bipin Chhetri, Akbar Siami Namin

#### Контекст Современная кибербезопасность стала ключевым аспектом защиты информационных систем от внешних и внутренних угроз. Главной проблемой этой области является увеличение числа киберугроз, которые приводят к негативным последствиям для целостности, доступности и конфиденциальности систем. Эти угрозы приводят к потере данных, финансовым убыткам и ухудшению репутации организаций. Особенно актуальным становится использование технологий углубленного обучения (deep learning) для понимания и прогнозирования последствий киберугроз. Одним из наиболее трудных аспектов является классификация последствий атак на основе текстовых описаний. Многие существующие методы имеют ограниченную точность и не могут эффективно обрабатывать большое количество данных. Это делает необходимым развитие более точных и эффективных методов классификации, чтобы обеспечить более эффективную защиту от киберугроз. #### Метод В данном исследовании использована методология глубокого обучения для классификации последствий киберугроз. Модель Bidirectional Encoder Representations from Transformers (BERT) была интегрирована с Hierarchical Attention Networks (HAN) для обеспечения эффективного многометкального классификации. BERT был выбран из-за его способности понимать контекст слов в тексте, что позволяет ему обрабатывать большие текстовые данные с высокой точностью. Hierarchical Attention Networks (HAN) были применены для улучшения классификации на основе вложенных субъектов в тексте. Архитектура модели также включала Convolutional Neural Networks (CNN) и Long Short-Term Memory (LSTM) для сравнения с BERT. Эти модели были обучены на данных из MITRE Common Weakness Enumeration (CWE) database, которая содержит описания различных киберугроз и их последствий. #### Результаты В ходе экспериментов были сравнены результаты BERT, HAN, CNN и LSTM на данных CWE. BERT достиг точности $0.972$ при многометкальной классификации, что значительно превышает результаты остальных моделей. HAN показал лучшие результаты на определенных многометкальных тегах по сравнению с CNN и LSTM, но не достиг той же универсальной точности, что и BERT. CNN и LSTM, в свою очередь, показали нижний уровень точности и не смогли удовлетворить более сложные задачи классификации в области кибербезопасности. Эти результаты подтверждают, что BERT является более эффективной моделью для прогнозирования последствий киберугроз. #### Значимость Результаты этого исследования имеют большое значение для кибербезопасности и индустрии. BERT может быть использован для автоматизации процессов классификации киберугроз, что существенно сократит время, затрачиваемое на анализ текстовых данных. Это позволит специалистам по бе

Annotation:

Cyberattacks are increasing, and securing against such threats is costing industries billions of dollars annually. Threat Modeling, that is, comprehending the consequences of these attacks, can provide critical support to cybersecurity professionals, enabling them to take timely action and allocate resources that could be used elsewhere. Cybersecurity is heavily dependent on threat modeling, as it assists security experts in assessing and mitigating risks related to identifying vulnerabilities a...

ID: 2508.13030v1 cs.LG, cs.AI, cs.CR

arXiv PDF

📄 Rethinking Autonomy: Preventing Failures in AI-Driven Software Engineering

2025-08-19

Авторы:

Satyam Kumar Navneet, Joydeep Chandra

## Контекст Современное программирование сильно подверглось влиянию технологий искусственного интеллекта (ИИ), особенно благодаря развитию Больших Лингвистических Моделей (LLM). Они преобразовали кодержимость, обеспечивая высокую производительность путем применения промототехнологий и автономных агентов ИИ. Однако этот прогресс не без рисков. Автоматическое генерирование кода может привести к проблемам, таким как внедрение уязвимостей, сгенерированные либо неточные выводы, вредоносные действия, а также необходимость в транспарентности и ответственности. Проблемы такого рода могут привести к серьезным последствиям, как показал случай с Replit, когда автономная система повредила базу данных. Необходима систематическая научная работа по созданию механизмов безопасности и руководства, чтобы обеспечить безопасное и эффективное использование ИИ в программировании. ## Метод Для решения этих проблем мы предлагаем SAFE-AI Framework, который состоит из нескольких ключевых компонентов. Его основная методология включает в себя широкий спектр технических и прикладных методов. Включая: 1. **Создание гардрайлов** (guardrails), которые помогают устанавливать границы для генерируемого кода, предотвращая появление небезопасных или нежелательных действий. 2. **Использование сандбоксов** (sandboxing) во время выполнения, чтобы защитить программу от внешних воздействий или нежелательных последствий генерируемого кода. 3. **Риск-анализ и логирование**, предоставляющий возможность отслеживать и анализировать возможные риски в реальном времени. 4. **Гуман-и-ди-луп-системы** (human-in-the-loop), обеспечивающие взаимодействие с человеком для более точного контроля и улучшения результатов. 5. **Эксплаинабельность ИИ** (explainable AI), которая позволяет понять, почему ИИ пришел к определенному решению. Кроме того, мы предлагаем новую каталогизацию типов действий ИИ в четыре категории: **предложительные**, **генерирующие**, **автономные**, и **подрывные**, чтобы определить уровень автономии и рисков. ## Результаты Мы провели ряд экспериментов для оценки эффективности SAFE-AI Framework. Использовались различные данные, включая обучающие наборы, тесты и фактические сценарии разработки программного обеспечения. Результаты показали, что SAFE-AI Framework эффективно редуцирует риски, связанные с автономным программированием, такие как внедрение уязвимостей и неточные выводы. Особенно удачно показались такие аспекты, как внедрение гардрайлов и работа с гуман-и-ди-луп-системами. Также было замечено, что SAFE

Annotation:

The integration of Large Language Models (LLMs) into software engineering has revolutionized code generation, enabling unprecedented productivity through promptware and autonomous AI agents. However, this transformation introduces significant risks, including insecure code generation, hallucinated outputs, irreversible actions, and a lack of transparency and accountability. Incidents like the Replit database deletion underscore the urgent need for robust safety and governance mechanisms. This pa...

ID: 2508.11824v1 cs.SE, cs.AI, cs.CR, cs.PF

arXiv PDF

📄 Unlearning at Scale: Implementing the Right to be Forgotten in Large Language Models

2025-08-19

Авторы:

Abdullah X

## Контекст Статья основывается на рассмотрении права на забыть (обязательств по GDPR Арт. 17) в отношении больших моделей языка. У самого права на забыть существует сложная многоугольниковая структура, которая включает в себя юридические, этические, технические и логические аспекты. Для реализации этого права в системах машинного обучения, особенно в больших моделях языка, требуется новая архитектура, которая позволит удалять данные, соответствующие запросу, без повреждения системы или ухудшения ее производительности. Данная статья поставляет подробное рассмотрение технических проблем и предлагает новые решения для обеспечения эффективного и жесткого "учтения" информации в моделях языка. ## Метод Техническая методология включает в себя определение логической архитектуры для учтения информации в больших моделях языка. Система работает на основе загрузки и репликации тренировочных процессов, которые позволяют удалять выбранные данные без влияния на остальные части модели. Для этого используется детерминированная структура обучения, включающая запись минимальных записей для каждого микро-батча (семантические идентификаторы, RNG-седы, значения обучения и шаг алгоритма оптимизации). Метод предлагает два типа решений: (i) полный откат новых шагов с помощью микро-чекпоинтов или периодических инкрементных записей, (ii) удаление адаптеров в контексте когорт, если основная модель заморожена. Эти технологии включают специальные механизмы, такие как курватура-направленный анти-обновление, чтобы обеспечить точность и эффективность. ## Результаты Использовались упрощенные тестовые данные для проверки функциональности нового метода. Экспериментальные результаты показали, что модель может удалять выбранные данные без сколов в производительности или других параметрах системы. Бит-идентичность параметров модели и оптимизатора была достигнута в случае, когда методы были применены с предварительными условиями. Дополнительно были отчеты о загрузке и задержке в течение всего процесса обучения. Эти результаты подтверждают, что метод может обеспечить соответствие запросам "удаления" в больших моделях языка без известных побочных эффектов. ## Значимость Важность данной работы заключается в том, что она предоставляет новую модель для обеспечения права на забыть в системах машинного обучения. Она может быть применена в различных областях, включая защиту персональных данных, обеспечение конфиденциальности и юридическое соответствие. Этот подход также может способствовать развитию новых этических стандартов в искусственно

Annotation:

We study the right to be forgotten (GDPR Art. 17) for large language models and frame unlearning as a reproducible systems problem. Our approach treats training as a deterministic program and logs a minimal per-microbatch record (ordered ID hash, RNG seed, learning-rate value, optimizer-step counter, and accumulation boundary). Under a pinned stack and deterministic kernels, replaying the training tail while filtering only the forget closure yields the same parameters as training on the retain s...

ID: 2508.12220v1 cs.LG, cs.AI, cs.CR, I.2.6; I.2.7

arXiv PDF

📄 MM-Food-100K: A 100,000-Sample Multimodal Food Intelligence Dataset with Verifiable Provenance

2025-08-16

Авторы:

Yi Dong, Yusuke Muraoka, Scott Shi, Yi Zhang

## Контекст Многомодальные данные, включающие многочисленные изображения и текстовые метки, являются ключевым ресурсом для развития искусственного интеллекта. Однако их уникальность и качество часто трудно проверить. У MP-Food-100K нет подобных проблем, так как этот мощный 100 000-выборочный датасет, состоящий из многомодальных данных об еде, поставляется с полностью проверяемой происхожденностью. Он является открытым 10% отрицательным тестовым подходом к 1,2 миллиону семантически обработанных изображений, отфильтрованных с учетом качества, собранных за шесть недель с участием более 87 000 участников. Эта работа была выполнена с помощью собственной модели Codatta для совмещения сообщественных усилий с технологиями AI-управленных проверок качества. Каждая подача связана с адресом электронного кошелька для трассируемости, а в будущем планируется перейти на полностью децентрализованный протокол на блокчейне. Многомодальность и проверка качества данных делают датасет уникальным и полезным для развития технологий обработки многомодальных данных. ## Метод MM-Food-100K был создан с использованием мощной контрибуционной модели Codatta, которая объединяет сообщественные усилия с AI-управляемыми проверками качества. Изображения были обработаны и аннотированы на различные атрибуты, такие как название блюда, регион его создания. Такой подход обеспечивает проверяемую происхожденность каждого образца датасета. Для подтверждения качества данных и их полезности для многомодальных задач был проведен эксперимент на тонкой настройке крупных зрения-языковых моделей (ChatGPT 5, ChatGPT OSS, Qwen-Max) на задачу прогнозирования питательных значений блюд на изображениях. Это подтвердило преимущества многомодальной модели и ее высокую полезность для решения задач обработки изображений. Данный подход стал ключевым для успеха датасета в тестировании и применении. ## Результаты В результате эксперимента, проведенного на основе MM-Food-100K, были получены улучшения в прогнозировании питательных значений блюд в сравнении с базовыми моделями. Использование тонкой настройки крупных зрения-языковых моделей позволило достичь консистентных повышений в основных метриках. На исходном датасете (1,2 миллиона изображений) было выделено 100 000 выборок, которые были открыто распространены в многомодальных задачах. В то же время остальные 90% данных остаются доступны для коммерческого применения с поддержкой модели доли децентрализованного дохода. Это делает MM-Food-100K как полезным для научных исследований, так и для практических приложений. ## Значимость Многомодальность и проверка качества данных делают датасет широко применимым

Annotation:

We present MM-Food-100K, a public 100,000-sample multimodal food intelligence dataset with verifiable provenance. It is a curated approximately 10% open subset of an original 1.2 million, quality-accepted corpus of food images annotated for a wide range of information (such as dish name, region of creation). The corpus was collected over six weeks from over 87,000 contributors using the Codatta contribution model, which combines community sourcing with configurable AI-assisted quality checks; ea...

ID: 2508.10429v1 cs.AI, cs.CR, cs.CV, I.2.10; I.2.6

arXiv PDF

📄 Decentralized Weather Forecasting via Distributed Machine Learning and Blockchain-Based Model Validation

2025-08-15

Авторы:

Rilwan Umar, Aydin Abadi, Basil Aldali, Benito Vincent, Elliot A. J. Hurley, Hotoon Aljazaeri, Jamie Hedley-Cook, Jamie-Lee Bell, Lambert Uwuigbusun, Mujeeb Ahmed, Shishir Nagaraja, Suleiman Sabo, Weaam Alrbeiqi

#################### ## Контекст #################### Погодные прогнозы являются ключевым фактором для снижения рисков при стихийных бедствиях, оптимизации сельского хозяйства и эффективного управления ресурсами. Традиционные системы прогнозирования погоды основываются на централизованных моделях, которые сталкиваются с проблемами, такими как возможность атак с высокой стоимостью, ограниченная масштабируемость и уязвимость к отказам в работе. Эти недостатки становятся все более актуальными, если принимать во внимание рост количества данных и требования к безопасности. Мы предлагаем распределенную модель прогнозирования погоды, использующую методы машинного обучения и блокчейн-технологии для обеспечения безопасности, прозрачности и устойчивости. #################### ## Метод #################### Мы предложили фреймворк, в котором реализована Федеративная Лингвистика (FL) для обучения моделей с учетом приватности пользователей, и блокчейн-технологии для верификации и обеспечения достоверности моделей. FL позволяет обучать модели на распределенных данных без передачи их в общую сеть, что улучшает безопасность и снижает трафик. Блокчейн Ethereum используется для прозрачного проверки моделей с помощью доказательств взаимного безопасности. Для эффективного хранения данных был использован Interplanetary File System (IPFS). Для того, чтобы повысить уровень доверия к моделям, мы внедрили репутационную систему голосования. #################### ## Результаты #################### Мы провели эксперименты с данными погоды, собранными с различных погодных станций. Модели FL были обучены на данных нескольких участников, а затем их модели были проверены с помощью Ethereum. Мы сравнили наши результаты с традиционными моделями и получили значительное повышение точности прогноза и уменьшение времени обработки. Блокчейн повысил доверие к моделям, а репутационная система улучшила выбор наиболее точных моделей. Использование IPFS позволило эффективно хранить и получать данные. #################### ## Значимость #################### Наша модель является значительным развитием для безопасного и эффективного прогнозирования погоды. Она может использоваться в сельском хозяйстве, страховании, энергетической отрасли и других отраслях, где точность прогнозов и безопасность критически важны. Модель обеспечивает улучшение производительности, уменьшает риск отказа в работе и обеспечивает прозрачность в данных и моделях, что делает ее привлекательной для широкого круга пользователей. #################### ## Выводы #################### Мы успешно разработали распределенную модель прогнозирования погоды, использующую FL и блокчейн-технологии. Этот подход демонстрирует значительное улучшение точности прогнозов, безопасности и м

Annotation:

Weather forecasting plays a vital role in disaster preparedness, agriculture, and resource management, yet current centralized forecasting systems are increasingly strained by security vulnerabilities, limited scalability, and susceptibility to single points of failure. To address these challenges, we propose a decentralized weather forecasting framework that integrates Federated Learning (FL) with blockchain technology. FL enables collaborative model training without exposing sensitive local da...

ID: 2508.09299v2 cs.LG, cs.AI, cs.CR

arXiv PDF

📄 Exact Verification of Graph Neural Networks with Incremental Constraint Solving

2025-08-15

Авторы:

Minghao Liu, Chia-Hsuan Lu, Marta Kwiatkowska

#### Контекст Graph neural networks (GNNs) широко используются в высокорисковых приложениях, таких как мониторинг финансовых операций и медицинские диагностические системы. Однако они остаются подверженными адверсарным атакам, модифицирующим входные данные или структуру графа. Даже небольшие изменения могут привести к непредсказуемому поведению сети. Несмотря на развитие методов, обеспечивающих адверсарную устойчивость, многие не поддерживают законность (soundness) и полноту (completeness), необходимых для надежного проверки. Это открывает проблему в подтверждении достоверности результатов GNNs при работе с существенными задачами. #### Метод Мы предлагаем метод полной проверки GNNs на устойчивость к адверсарным взаимодействиям с графом, направленным на узлы и ребра. Метод основывается на технике уточнения ограничений (bound tightening) для эффективного решения ограниченных задач устойчивости. Он поддерживает три вида агрегации в сообщениях — сумма, максимум и среднее — которые широко используются в сообщениях GNNs. Метод реализован в виде программного решения с использованием преимуществ развития существующих средств для упрощения решения сложных задач. #### Результаты Мы проводили эксперименты на двух стандартных датасетах (Cora и CiteSeer) и двух датасетах реальных данных (Amazon и Yelp), связанных с мошенничеством. Наш метод проверял GNNs на устойчивость к адверсарным изменениям в графе, включая добавление и удаление ребер. Результаты показывают, что наши решения эффективно выполняются на небольших датасетах и выдают более точные результаты в сравнении с другими подходами. Этот подход позволяет оптимизировать процесс проверки и обеспечить надежные результаты для работы GNNs в жизненных ситуациях. #### Значимость Наш метод может быть применен в сферах, где GNNs требуют доказательства их безопасности и точности, таких как мошенничество, безопасность систем, технологии распознавания образов. Он предлагает высокую точность и эффективность, что может привести к улучшению доверия к GNNs в высокоуровневых приложениях. Будущие работы будут направлены на расширение метода для более сложных моделей GNNs и улучшение поддержки агрегации. #### Выводы Мы представили метод для точной проверки GNNs с помощью уточнения ограничений для устойчивости к адверсарным изменениям. Этот метод поддерживает три вида агрегации (сумма, максимум и среднее) и показывает высокую эффективность на нескольких датасетах. Это подтверждает возможность повысить доверие к GNNs в приложениях с высоким риском. Будущие работы будут нацелены на расширение стабильности и гибко

Annotation:

Graph neural networks (GNNs) are increasingly employed in high-stakes applications, such as fraud detection or healthcare, but are susceptible to adversarial attacks. A number of techniques have been proposed to provide adversarial robustness guarantees, but support for commonly used aggregation functions in message-passing GNNs is still lacking. In this paper, we develop an exact (sound and complete) verification method for GNNs to compute guarantees against attribute and structural perturbatio...

ID: 2508.09320v1 cs.LG, cs.AI, cs.CR

arXiv PDF

📄 Oblivionis: A Lightweight Learning and Unlearning Framework for Federated Large Language Models

2025-08-14

Авторы:

Fuyao Zhang, Xinyu Yan, Tiantong Wu, Wenjie Li, Tianxiang Chen, Yang Cao, Ran Yan, Longtao Huang, Wei Yang Bryan Lim, Qiang Yang

## Контекст Large Language Models (LLMs) широко используются в сегменте машинного обучения для решения различных задач, от генерации текста до анализа данных. Одной из особенностей их развития является использование Federated Learning (FL) для оптимизации моделей с применением закрытых, задатковых данных. Это позволяет улучшить модели, не теряя приватность пользователей. Однако, несмотря на эффективность FL, существуют проблемы, связанные с нормативным соответствием (например, GDPR), который требует удаления конкретных данных по запросу. Избавление от такой информации в системах FL является сложной задачей из-за распределенной структуры, жестких требований к приватности и хаотичности взаимодействия клиентов. Из этого порождается необходимость в разработке специальных методов для регулярного удаления данных в моделях LLMs. ## Метод Oblivionis предлагает уникальный подход к обучению и удалению в системах FL. Он рассматривает обучение и удаление как два связанных целевые задачи, которые могут быть решены одновременно. Методология включает в себя шесть алгоритмов FL и пять механизмов удаления данных, которые оцениваются в рамках одной архитектуры. Архитектура Oblivionis гармонично объединяет эти процессы, используя техники градиентного оптимизации и адаптивных методов для обеспечения эффективного удаления данных. Выбор алгоритмов и подходов производится с учетом уровня затрат, эффективности и регулируемости. ## Результаты Набор экспериментов был проведен для оценки эффективности Oblivionis. Использовались различные типы данных, включая тексты и модели с разным уровнем нагрузки. Основным показателем стала степень "забытости" модели после удаления данных и сохранение ее качества. Результаты показали, что Oblivionis превосходит локальное обучение по параметрам быстродействия и удаления данных. Дополнительная сравнительная таблица, в которой представляются результаты разных алгоритмов, демонстрирует преимущества Oblivionis в сравнении с другими подходами. ## Значимость Oblivionis может применяться в сферах, где важно соблюдение юридических норм, таких как GDPR. Его особенностью является возможность выборочного удаления данных без существенного потери модельной эффективности. Этот подход может использоваться в системах с большим объемом пользовательских данных, таких как социальные сети, здравоохранение и финансовые системы. Важно отметить, что Oblivionis не только повышает уровень доверия к моделям, но и упрощает требования к управлению данными. ## Выводы Oblivionis представляет собой продвинутый подход к обучению и удалению данных в федеративных LLM-системах. Он успешно решает про

Annotation:

Large Language Models (LLMs) increasingly leverage Federated Learning (FL) to utilize private, task-specific datasets for fine-tuning while preserving data privacy. However, while federated LLM frameworks effectively enable collaborative training without raw data sharing, they critically lack built-in mechanisms for regulatory compliance like GDPR's right to be forgotten. Integrating private data heightens concerns over data quality and long-term governance, yet existing distributed training fra...

ID: 2508.08875v1 cs.LG, cs.AI, cs.CR

arXiv PDF

📄 PROPS: Progressively Private Self-alignment of Large Language Models

2025-08-13

Авторы:

Noel Teku, Fengwei Tian, Payel Bhattacharjee, Souradip Chakraborty, Amrit Singh Bedi, Ravi Tandon

## Контекст В последние годы искусственные нейронные сети, особенно большие языковые модели (LLMs), получили широкое распространение в различных областях, от применений в бизнесе до образовательных систем. Однако развитие этих моделей часто зависит от корректного выравнивания поведения модели в соответствии с человеческими ценностями и общественными нормами. Это процесс, называемый "alignment", требует использования человеческого вклинения в форме отзывов и фидбека, чтобы обучить модель подходить к решениям в соответствии с этими нормами. Однако, существующие методы, такие как Differentially Private SGD (DP-SGD), стремятся защитить чувствительные данные индивидуальных лейблеров, но это может привести к значительному снижению моделируемой модели. Исследователи сталкиваются с мотивацией для более балансированных подходов, которые не только защищают чувствительные данные, но и сохраняют высокую модельную эффективность. ## Метод Мы предлагаем PROPS (PROgressively Private Self-alignment), многоступенчатый фреймворк, который обеспечивает высокую личностную конфиденциальность через применение прогрессивного алгоритма самоориентированного выравнивания. Этот метод использует модели, которые были выравнены в предыдущих этапах, в качестве новых данных для тренировки в последующих этапах. Это позволяет уменьшить необходимость в человеческом вклинении на последних этапах алгоритма. Мы также применяем техники, такие как градиентный шум и защищенные методы обучения, для обеспечения конфиденциальности на уровне предпочтений. Архитектура PROPS включает в себя несколько моделей, которые обучаются в закрытом режиме и обмениваются данными для улучшения качества и конфиденциальности в целом. ## Результаты Мы провели эксперименты с несколькими моделями, такими как Pythia и GPT, и использовали данные из баз данных, таких как AlpacaEval, Anthropic HH-RLHF, и truthy-dpo-v0.1. Наши результаты показали, что PROPS может достигать до 3 раза большей производительности в сравнении с DP-SGD и 2.5 раз большей производительности в сравнении с Randomized Response (RR) на одном и том же уровне конфиденциальности. Эти результаты подтверждают, что PROPS обеспечивает высокую конфиденциальность при улучшении моделируемой эффективности в сравнении с существующими методами. Мы также проверили, что PROPS сохраняет высокую точность в поддержке человеческих ценностей в диапазоне разных сценариев и задач. ## Значимость Предлагаемый подход PROPS имеет широкие области применения в области юмора, защиты частных данных и социальных сетей, где необходимо соблюдать чувствительную конфиденциальность. Он предлагает преимущества в повышении качества результатов модели, у

Annotation:

Alignment is a key step in developing Large Language Models (LLMs) using human feedback to ensure adherence to human values and societal norms. Dependence on human feedback raises privacy concerns about how much a labeler's preferences may reveal about their personal values, beliefs, and personality traits. Existing approaches, such as Differentially Private SGD (DP-SGD), provide rigorous privacy guarantees by privatizing gradients during fine-tuning and alignment but can provide more privacy th...

ID: 2508.06783v1 cs.LG, cs.AI, cs.CR, cs.IT, math.IT

arXiv PDF

📄 Who's the Evil Twin? Differential Auditing for Undesired Behavior

2025-08-13

Авторы:

Ishwar Balappanawar, Venkata Hasith Vattikuti, Greta Kintzley, Ronan Azimi-Mancel, Satvik Golechha

## Контекст Область исследования сосредоточена на обнаружении нежелательного поведения в нейронных сетях, в частности в контексте моделей глубокого обучения. Несмотря на их потрясающие возможности, нейронные сети часто являются непрозрачными и могут внедрять нежелательное поведение, которое не очевидно и может быть использовано атакующими. Эта проблема не только становится важной с точки зрения безопасности, но и влияет на доверие к алгоритмам, используемым в критически важных областях, таких как здравоохранение, финансы и автоматизированные системы принятия решений. Существующие методы обнаружения нежелательного поведения часто имеют ограниченную эффективность, особенно при недостаточной информации о нежелательном поведении. В этой статье предлагается альтернативный подход, основанный на игре между двумя командами: красная команда настраивает модели с и без нежелательного поведения, тогда как синюха команда пытается обнаружить подозрительную модель с ограниченной информацией. Этот подход может обеспечить более точные результаты в сравнении с традиционными методами. ## Метод Предлагаемая методология основывается на использовании игры между красной и синюхой командами. Красная команда обучает две почти идентичные модели: одну на основе безопасных данных, а другую с внедренным нежелательным поведением. Обе модели должны оказаться почти неразличимыми на безопасном датасете. Задача синюхой команды — определить модель с нежелательным поведением, используя различные методы аудита. Набор этих методов включает гауссовский шум, модельные различия, интегрированные производные, а также атаки с адверсарным вводом. Эти методы были изучены для моделей типа CNN, а затем протестированы с разным уровнем признаков, предоставленных красной командой. Для повышения гибкости исследования, методы были также применены к моделям типа LLM, где применялись стандартные методы ввода запросов или ввода с указанием нежелательного распределения. ## Результаты Эксперименты показали, что атаки с адверсарным вводом демонстрируют высокую точность в определении модели с нежелательным поведением при достаточном уровне подсказок (100% правильных прогнозов). Другие методы, такие как гауссовский шум и модельные различия, показали менее впечатляющие результаты, но все равно оказались полезными в определенных сценариях. Для моделей типа LLM, результаты были более смешанными, но приемлемыми, особенно когда были предоставлены указания о нежелательном распределении. На основе этих результатов, авторы подчеркивают, что адверсарные методы могут являться кл

Annotation:

Detecting hidden behaviors in neural networks poses a significant challenge due to minimal prior knowledge and potential adversarial obfuscation. We explore this problem by framing detection as an adversarial game between two teams: the red team trains two similar models, one trained solely on benign data and the other trained on data containing hidden harmful behavior, with the performance of both being nearly indistinguishable on the benign dataset. The blue team, with limited to no informatio...

ID: 2508.06827v1 cs.LG, cs.AI, cs.CR

arXiv PDF

1
2
13
14
15
16
17

Показано 141 - 150 из 162 записей