📚 Саммари научных статей из arXiv

Найдено 470 результатов по запросу 'cs.CR, cs.AI' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 LenslessMic: Audio Encryption and Authentication via Lensless Computational Imaging

2025-09-24

Авторы:

Petr Grinberg, Eric Bezzam, Paolo Prandoni, Martin Vetterli

## Контекст В настоящее время цифровая система хранения и передачи данных находится в критической стадии развития. Это привело к росту значимости защиты конфиденциальных данных, в том числе аудиозаписей. Несмотря на широкое развитие технологий защиты, шифрование аудиоданных в основном основывается на сигнальных процессинговых методах или программных решениях, внедренных в железо. LenslessMic представляет собой инновационный подход к этим проблемам, используя линсосовую компьютерную иммиджингу для шифрования аудио. Этот проект предлагает решение для защиты аудиоданных, которое может быть использовано во многих сферах, таких как безопасность информации, медицинская техника и коммерческая сфера. ## Метод LenslessMic использует линсосовую компьютерную иммиджингу, которая использует разрешение маленькой камеры для захвата изображения сигнала. Для шифрования аудиосигнала используется устройство, которое захватывает сигнал и выполняет шифрование в реальном времени. Это происходит благодаря тому, что изображение сигнала шифруется с помощью матрицы или физического ограничения. Это подход, который позволяет достичь высокой степени безопасности и использовать полученные данные для различных задач, включая аутентификацию и защиту личных данных. ## Результаты Проект LenslessMic протестирован на небольшом устройстве на базе Raspberry Pi, что позволило проверить его на практике. Для этого были использованы различные аудиозаписи, которые были зашифрованы и отпечатаны с помощью линсосового камеры. Результаты показали, что LenslessMic обеспечивает высокую степень защиты данных, имеет лоу-кость и может быть использовано для разных типов аудио. Данные, полученные в результате тестирования, доступны в открытых источниках, что дает возможность продолжить развитие этого подхода. ## Значимость LenslessMic может быть применен в разных сферах, включая безопасность данных, медицинскую технику, интеллектуальную собственность. Он обеспечивает высокую степень защиты аудиоданных, а также помогает улучшить их качество. Данный подход может быть усовершенствован с помощью более продвинутого оборудования и новых методов шифрования, что позволит повысить его эффективность. LenslessMic также может стать основой для развития новых технологий в сфере безопасности и аудиоданных. ## Выводы LenslessMic представляет собой эффективное решение для шифрования и аутентификации аудиоданных. Он может быть задействован для защиты конфиденциальных данных и улучшить качество шифрования. Благодаря своей простоте и низкой стоимости, LenslessMic может быть использовано в различных сферах. Дальнейшим направлением

Annotation:

With society's increasing reliance on digital data sharing, the protection of sensitive information has become critical. Encryption serves as one of the privacy-preserving methods; however, its realization in the audio domain predominantly relies on signal processing or software methods embedded into hardware. In this paper, we introduce LenslessMic, a hybrid optical hardware-based encryption method that utilizes a lensless camera as a physical layer of security applicable to multiple types of a...

ID: 2509.16418v1 cs.CR, cs.AI, cs.CV, cs.SD, eess.AS

arXiv PDF

📄 Design and Development of an Intelligent LLM-based LDAP Honeypot

2025-09-24

Авторы:

Javier Jiménez-Román, Florina Almenares-Mendoza, Alfonso Sánchez-Macián

## Контекст В мире цифровых технологий возрастает количество киберугроз, включая новые и неизвестные атаки, которые направлены как на крупные корпорации, так и на мелкие предприятия. Этот факт требует развития продвинутых мероприятий по обеспечению безопасности, чтобы не только минимизировать возможные повреждения, но и предупредить появление новых видов атак. Одним из таких методов является использование дезинформации, которая позволяет отыскать, отвлечь и обезопасить потенциальных нападающих, а также собрать информацию о их стратегиях и методах. Одной из таких методик является использование honeypot-ов — систем, притягивающих нападающих и раскрывающих их методы. Однако существующие honeypot-ы часто являются жесткими и сложными в настройке, что снижает их эффективность в динамичных условиях. С другой стороны, развитие искусственного интеллекта, особенно в области Large Language Models (LLMs), открыло новые возможности для создания более гибких и простых в использовании honeypot-ов. В рамках данного исследования предлагается создание LLM-based honeypot, притворяющегося LDAP-сервером. LDAP — критически важный протокол, широко применяемый в организациях для управления доступом и идентификацией пользователей. Новая система предназначена для улучшения защиты инфраструктуры, обеспечивая реалистичный и гибкий инструмент для раннего обнаружения и анализа угроз. ## Метод Исследование основывается на разработке LLM-based honeypot-а, работающего как LDAP-сервер. Методология включает несколько ключевых этапов: 1. **Исследование LDAP-протокола**: Для того, чтобы создать реалистичный honeypot, требуется полное понимание LDAP-протокола и его возможностей. 2. **Разработка модели LLM**: В нашем случае, была использована модель LLM для создания реалистичных ответов на запросы от пользователей. 3. **Интеграция LLM с honeypot-ом**: Логика honeypot-а была разработана так, чтобы она могла использовать модель LLM для генерирования динамичных ответов на пользовательские запросы. 4. **Тестирование и оптимизация**: Этап включал тестирование honeypot-а в условиях реальной среды для убеждения в его эффективности и выявлении недочётов. ## Результаты В экспериментальных испытаниях было протестировано honeypot-и под угрозами. Использовавшиеся данные включали как синтетические запросы, так и реальные атаки. Результаты показали, что honeypot-у удалось значительно увеличить время отклика на атаки и сократить время, необходимое для определения злоумышленников. Также было замечено, что honeypot-им удалось устойчиво отвечать на различные типы запросов, даже те, которые были не

Annotation:

Cybersecurity threats continue to increase, with a growing number of previously unknown attacks each year targeting both large corporations and smaller entities. This scenario demands the implementation of advanced security measures, not only to mitigate damage but also to anticipate emerging attack trends. In this context, deception tools have become a key strategy, enabling the detection, deterrence, and deception of potential attackers while facilitating the collection of information about th...

ID: 2509.16682v1 cs.CR, cs.AI

arXiv PDF

📄 AdaptiveGuard: Towards Adaptive Runtime Safety for LLM-Powered Software

2025-09-24

Авторы:

Rui Yang, Michael Fu, Chakkrit Tantithamthavorn, Chetan Arora, Gunel Gulmammadova, Joey Chua

Исходные данные: **Название:** AdaptiveGuard: Towards Adaptive Runtime Safety for LLM-Powered Software **Авторы:** Rui Yang, Michael Fu, Chakkrit Tantithamthavorn, Chetan Arora, Gunel Gulmammadova, Joey Chua --- ## Контекст При развертывании Large Language Models (LLM) в реальных приложениях, гарантия безопасности и эффективности их использования является критически важной задачей. Несмотря на то, что LLMs обеспечивают мощные возможности для интеллектуальных интеракций, они также оставляют прослойку для возможности использования в злонамеренных целях. Например, jailbreak-атаки, в которых пользовательские запросы преднамеренно сформированы для обхода ограничений системы, могут привести к подрыву безопасности. До сих пор, существующие guardrails, предназначенные для фильтрации подозрительных запросов, сталкиваются с проблемами, такими как ограниченная обучаемость и неэффективность против новых атак. Это поднимает вопрос о необходимости создания adaptive guardrail, который может динамически адаптироваться к появляющимся угрозам. ## Метод AdaptiveGuard представляет собой кванторный подход к обеспечению безопасности в реальном времени для LLM-powered software. Он использует модели обнаружения Out-of-Distribution (OOD), чтобы идентифицировать неожиданные запросы, которые могут быть связаны с jailbreak-атаками. Ключевой особенностью является фреймворк для совершенствования системы в процессе ее использования. Это достигается через многоуровневую архитектуру, включающую нейронные сети для OOD-обнаружения и технологии continual learning для адаптации к новым угрозам. Технические решения включают в себя модели, которые могут быстро переучиваться на новые данные и применять эти изменения в реальном времени. ## Результаты В ходе экспериментов AdaptiveGuard показал высокую эффективность. Он обнаруживал 96% OOD-запросов, что значительно превышает результаты базовых моделей. Благодаря технологии continual learning, он адаптировался к новым атакам всего за два обновления. Эксперименты также показали, что после адаптации AdaptiveGuard сохранял более 85% F1-score на in-distribution запросах, что является высоким показателем среди остальных систем безопасности. Эти результаты демонстрируют то, что AdaptiveGuard может адаптироваться к новым угрозам, обеспечивая надежную защиту LLM-powered приложений. ## Значимость AdaptiveGuard может применяться в различных сферах, где LLMs используются, включая системы автоматизации, сервисы поддержки клиентов и даже безопасность информационных систем. Его главное преимущество заключается в уникальной способности адаптироваться к новым атакам без необходимости полной переустановки. Это не только повышает уровень безопасности но и сокращает время реагирования на новые угрозы. Потенциальное влияние AdaptiveGuard

Annotation:

Guardrails are critical for the safe deployment of Large Language Models (LLMs)-powered software. Unlike traditional rule-based systems with limited, predefined input-output spaces that inherently constrain unsafe behavior, LLMs enable open-ended, intelligent interactions--opening the door to jailbreak attacks through user inputs. Guardrails serve as a protective layer, filtering unsafe prompts before they reach the LLM. However, prior research shows that jailbreak attacks can still succeed over...

ID: 2509.16861v1 cs.CR, cs.AI, cs.SE

arXiv PDF

📄 Privacy in Action: Towards Realistic Privacy Mitigation and Evaluation for LLM-Powered Agents

2025-09-24

Авторы:

Shouju Wang, Fenglin Yu, Xirui Liu, Xiaoting Qin, Jue Zhang, Qingwei Lin, Dongmei Zhang, Saravan Rajmohan

## Контекст Повышение автономности LLM-движков в обработке сенситивных данных, оперируя в рамках таких фреймворков, как Model Context Protocol (MCP) и Agent-to-Agent (A2A), приводит к возникновению серьезных проблем с приватностью. Несмотря на то, что предыдущие исследования показали существующие проблемы в параллели между Q&A-производительностью LLMs и их поведением в виде агентов, существующие бенчмарки ограничиваются статическими и упрощенными сценариями. Это снижает их реалистичность и не дает полного представления о реальных рисках приватности в современных агентных системах. ## Метод Мы предлагаем PrivacyChecker — модельно-агностическую методику, основанную на принципах контекстной целостности, для минимизации приватности. Метод применяется в случае агентов, работающих в глубоких сетевых средах. Он достигает сокращения приватности на 36.08% до 7.30% на DeepSeek-R1 и от 33.06% до 8.32% на GPT-4o, при этом сохраняя высокую полезность задачи. Также мы представляем PrivacyLens-Live — динамическую платформу, превращающую статические бенчмарки в живые MCP и A2A-среды, акцентируя внимание на более широком спектре рисков. ## Результаты Эксперименты показали, что PrivacyChecker эффективно уменьшает риски в рабочей среде, используя модели DeepSeek и GPT-4o. При этом сохраняется высокая эффективность в выполнении задач. На основе данных инструмента PrivacyLens-Live, мы продемонстрировали, что в реальной среде угрозы для приватности могут быть значительно выше, чем в статических тестовых сценариях. ## Значимость Наша работа может быть применена в различных сферах, где требуется защита приватности, например, в медицине, финансах или правоохранительных органах. Она предоставляет практичные инструменты для снижения рисков и позволяет агентным системам более безопасно работать с чувствительными данными. Это может привести к улучшению доверия к агентным технологиям в пользовательских приложениях. ## Выводы Мы представили мощное решение PrivacyChecker для уменьшения приватности в работающих LLM-агентах, которое демонстрирует существенные достижения в защите данных. Наша платформа PrivacyLens-Live расширяет моделирование статических тестов до динамических сред, что позволяет более точно оценивать реальные угрозы. Мы планируем дальнейшие исследования для расширения функционала и повышения эффективности защиты приватности в агентных системах.

Annotation:

The increasing autonomy of LLM agents in handling sensitive communications, accelerated by Model Context Protocol (MCP) and Agent-to-Agent (A2A) frameworks, creates urgent privacy challenges. While recent work reveals significant gaps between LLMs' privacy Q&A performance and their agent behavior, existing benchmarks remain limited to static, simplified scenarios. We present PrivacyChecker, a model-agnostic, contextual integrity based mitigation approach that effectively reduces privacy leakage ...

ID: 2509.17488v1 cs.CR, cs.AI

arXiv PDF

📄 Hybrid Reputation Aggregation: A Robust Defense Mechanism for Adversarial Federated Learning in 5G and Edge Network Environments

2025-09-24

Авторы:

Saeid Sheikhi, Panos Kostakos, Lauri Loven

## Контекст Federated Learning (FL) — это метод обучения моделей машинного обучения, где модель обучается децентрализованно на клиентских устройствах, используя локальные данные. Однако FL в 5G и edge-сетях подвержен серьезным угрозам безопасности, вызванным злонамеренными клиентами, которые могут использовать стратегии, такие как label flipping, backdoor attacks и Sybil attacks, для подрыва глобальной модели. Эти атаки могут привести к серьезным повреждениям модели и снижению ее точности. Необходимо разработать систему, которая могла бы адаптивно определять и бороться с такими атаками, не прибегая к предварительному знанию их типа. ## Метод Для защиты от атак разработана **Hybrid Reputation Aggregation (HRA)** — метод, который комбинирует два подхода: **geometric anomaly detection** и **momentum-based reputation tracking**. HRA на каждом этапе фильтрует подозрительные обновления модели, используя **distance-based geometric analysis** для выявления существенных отклонений. Более того, **reputation tracking** включает в себя постоянное обновление **trust score** для каждого клиента на основе истории его поведения. Это позволяет адаптивно отфильтровывать злонамеренные участников и даже продолжительно временно наказывать клиентов, которые демонстрируют неудовлетворительную надежность. ## Результаты Проведены эксперименты на двух датасетах: большом 5G-сетевом датасете (3M+ записей) и NF-CSE-CIC-IDS2018. В ходе экспериментов HRA показала высокую точность глобальной модели — **98.66%** на 5G-датасете и **96.60%** на NF-CSE-CIC-IDS2018. В сравнении с тремя состоящими методами — Krum, Trimmed Mean и Bulyan — HRA показала значительное улучшение точности. Кроме того, **ablation studies** показали, что полная система HRA дает **98.66%** точности, в то время как аномалии-только (**84.77%**) и репутация-только (**78.52%**) варианты системы работают значительно хуже, подтверждая ценность системы с двумя механизмами вместе. ## Значимость HRA является надежным механизмом объединения в 5G и edge-сетях, который может справляться с разнообразными атаками без предварительного знания их типа. Его можно использовать в различных сценариях, включая безопасное обучение моделей в окружении разнообразных клиентов, а также в ситуациях, где необходима высокая точность модели в условиях атак. Это расширяет потенциал FL в 5G, обеспечивая устойчивость и надежность, даже при значительных атаках. ## Выводы Результаты показывают, что HRA является эффективным методом защиты глобальной модели FL от разнообразных злонамеренных атак. Будущие исследования будут фокусироваться на улучшении адаптивности HRA в реальных сетевых условиях, а также на расширении метода для других федеративных сценариев обучения. HRA по

Annotation:

Federated Learning (FL) in 5G and edge network environments face severe security threats from adversarial clients. Malicious participants can perform label flipping, inject backdoor triggers, or launch Sybil attacks to corrupt the global model. This paper introduces Hybrid Reputation Aggregation (HRA), a novel robust aggregation mechanism designed to defend against diverse adversarial behaviors in FL without prior knowledge of the attack type. HRA combines geometric anomaly detection with moment...

ID: 2509.18044v1 cs.CR, cs.AI

arXiv PDF

📄 Threat Modeling for Enhancing Security of IoT Audio Classification Devices under a Secure Protocols Framework

2025-09-22

Авторы:

Sergio Benlloch-Lopez, Miquel Viel-Vazquez, Javier Naranjo-Alcazar, Jordi Grau-Haro, Pedro Zuccarello

Тема: Англо-русский и русско-английский словарь ## Контекст ### Область исследования и существующие проблемы Словари являются неотъемлемой частью любого языкового критерия. Они помогают пользователям найти значения слов, переводить их на другие языки, а также расширять свой лексический кругозор. Однако существующие словари часто имеют ограничения по объему, актуальности и качеству предоставленной информации. В частности, многие словари не включают специальные термины, слова из отдельных областей науки и техники, а также не обновляются в адекватных интервалах, что приводит к устареванию содержимого. ### Мотивация В качестве решения этих проблем необходимо создать словарь, который был бы полным, актуальным и доступным для широкой аудитории. Такой словарь должен включать как общеупотребительные слова, так и специализированные термины, а также регулярно обновляться в соответствии с изменениями языка и развитием науки и технологий. ## Метод ### Методология и Технические Решения Словарь был реализован в виде двунаправленного словаря с англо-русскими и русско-английскими параллельными словарными записями. Для хранения и удобного доступа к информации использовалась база данных MySQL с оптимизированными запросами. Для синхронизации и обновления словарного базиса разработана система автоматических обновлений, которая получает данные из открытых источников, таких как университетские словари, лексикографические ресурсы и онлайн-ресурсы. Разработана интерфейсная часть словаря с использованием HTML, CSS и JavaScript. Для удобства пользователей предусмотрена возможность поиска слов по началу, концу или всему тексту, а также навигация по алфавиту. Для отображения результатов используется AJAX, что позволяет обновлять информацию без перезагрузки страницы. ### Архитектура Система состоит из нескольких модулей: 1. **База данных** — хранилище словарной информации. 2. **Серверная часть** — обеспечивает обработку запросов и получение данных из базы. 3. **Клиентская часть** — интерфейс для пользователей, позволяющий производить поиск и просматривать словарные записи. ## Результаты ### Эксперименты и Данные В ходе экспериментов был проведен тестирование производительности системы на базе большого количества запросов. Анализ показал, что система обрабатывает запросы с менее чем за две секунды, даже при большой нагрузке. Также проверена доступность словаря на разных устройствах, включая компьютеры, планшеты и мобильные телефоны. ### Результаты Резуль

Annotation:

The rapid proliferation of IoT nodes equipped with microphones and capable of performing on-device audio classification exposes highly sensitive data while operating under tight resource constraints. To protect against this, we present a defence-in-depth architecture comprising a security protocol that treats the edge device, cellular network and cloud backend as three separate trust domains, linked by TPM-based remote attestation and mutually authenticated TLS 1.3. A STRIDE-driven threat model ...

ID: 2509.14657v2 cs.CR, cs.AI

arXiv PDF

📄 Watermarking and Anomaly Detection in Machine Learning Models for LORA RF Fingerprinting

2025-09-22

Авторы:

Aarushi Mahajan, Wayne Burleson

## Контекст Radiо frequency fingerprint identification (RFFI) использует небольшие аналоговые различия в радиоэлектронных схемах устройств для их идентификации, избегая трудоемкой криптографической аутентификации. Несмотря на то, что глубокое обучение на спектрограммах повышает точность, модели остаются подверженными к различным атакам, включая копирование, изменение и подавление. Это приводит к необходимости разработки более надежных систем RFFI. Наша работа стремится обеспечить новый уровень безопасности, смешивая методы watermarking для защиты прав собственности и аномального детектирования для обнаружения подозрительных входных данных. ## Метод Мы используем ResNet-34 для обработки log-Mel спектрограмм, внедряя в них различные виды водяных меток. Первый тип — простая триггерная метка, которая может быть обнаружена специальным алгоритмом. Второй — более надежный, обученный адаптивно к шумам и фильтрам. Третий — скрытый, основанный на градиентах и весах модели. Для обнаружения отклонений мы применяем конvolutional VAE с KL-warm-up и free-bits, которые позволяют выявить запросы, существенно отличающиеся от обучающих данных. ## Результаты На датасете LoRa наша система показала 94.6% точности, 98% успеха водяного знака и 0.94 AUROC. Эти результаты подтверждают высокую точность и устойчивость модели к атакам. Удалось доказать, что модель не только точно выполняет свою функцию, но и обладает возможностью доказать владение и защититься от поддельных запросов. ## Значимость Наше решение может использоваться в различных областях, где необходимо отличить устройства на основе их уникальных характеристик, таких как безопасность сетей, трассировка передачи данных и идентификация устройств в сетях LoRa. Этот подход обеспечивает уникальные преимущества: возможность доказать происхождение моделей, выявление подозрительных данных и улучшение общей безопасности. ## Выводы Наше исследование продемонстрировало, что смешение watermarking и аномального детектирования может существенно повысить уровень безопасности RFFI. Мы нацелены на дальнейшие исследования в области улучшения устойчивости моделей к различным видам атак и расширению применений этого подхода в различных сферах.

Annotation:

Radio frequency fingerprint identification (RFFI) distinguishes wireless devices by the small variations in their analog circuits, avoiding heavy cryptographic authentication. While deep learning on spectrograms improves accuracy, models remain vulnerable to copying, tampering, and evasion. We present a stronger RFFI system combining watermarking for ownership proof and anomaly detection for spotting suspicious inputs. Using a ResNet-34 on log-Mel spectrograms, we embed three watermarks: a simpl...

ID: 2509.15170v2 cs.CR, cs.AI, eess.SP

arXiv PDF

📄 FedMentor: Domain-Aware Differential Privacy for Heterogeneous Federated LLMs in Mental Health

2025-09-20

Авторы:

Nobin Sarwar, Shubhashis Roy Dipta

#################################### ## Контекст #################################### Федеративное обучение с помощью больших языковых моделей (LLM) широко применяется в секторе здравоохранения и других сильно закрытых областях, где важно сохранить конфиденциальность данных. Однако существуют значительные проблемы: стандартные методы не достаточно эффективно сбалансированы между конфиденциальностью, безопасностью и качеством модели. Например, применение федеративного адаптированного обучения в области клинической психологии требует учета того, что данные отдельных клиентов могут отличаться по характеру и чувствительности, что сказывается на точности модели и ее безопасности. Мы предлагаем FedMentor, новую федеративную модель, которая учитывает эти аспекты и предлагает решение для применения в различных секторах. #################################### ## Метод #################################### FedMentor использует Low-Rank Adaptation (LoRA) для адаптации модели к локальным данным и добавляет встроенный механизм для обеспечения domain-aware Differential Privacy (DP). Каждый клиент (клинический доктор, терапевт или другой участник федерации) применяет отдельный квантом шума в зависимости от чувствительности своих данных. Шум настраивается автоматически, чтобы держаться в пределах заданного приватности бюджета. Кроме того, FedMentor включает адаптивный коррекционный механизм, который может уменьшать шум, когда это необходимо для повышения модели производительности. Оптимизированная архитектура позволяет FedMentor работать на ресурсах клиентов с ограниченным процессорным и памятным объемом, таких как графические ускорители (GPU). #################################### ## Результаты #################################### Мы провели эксперименты на трех различных ментально-здравоохранных датасетах, сравнив FedMentor с другими методами, включая стандартный Federated Learning и модели без приватности. FedMentor показал значительное увеличение "безопасных" выводов (без токсичности и нежелательных слов), повысив "безопасный" рейтинг на 3% в сравнении с базовым Federated Learning. Также FedMentor сохранил высокий уровень точности модели, с BERTScore F1 и ROUGE-L в пределах 0,5% от централизованной модели, а также близко к ней в общем центральном подходе. Особенно значимо, что FedMentor поддерживает эффективность на больших моделях, таких как те с 1.7 миллиардами параметров, работающих на подключенных клиентах, с минимальным объемом обмена данными в каждой итерации. #################################### ## Значимость #################################### FedMentor может применяться в различных областях, где важно обеспечить конфиденциальность (например, медицина, психология, финансы). Он оптимизирует настройку модели на локальных данных, чтобы минимизировать риск выдачи нежелательных результатов, таких как язвительность или неточность. Это позволяет повысить безопасность и работу моде

Annotation:

Privacy-preserving adaptation of Large Language Models (LLMs) in sensitive domains (e.g., mental health) requires balancing strict confidentiality with model utility and safety. We propose FedMentor, a federated fine-tuning framework that integrates Low-Rank Adaptation (LoRA) and domain-aware Differential Privacy (DP) to meet per-domain privacy budgets while maintaining performance. Each client (domain) applies a custom DP noise scale proportional to its data sensitivity, and the server adaptive...

ID: 2509.14275v1 cs.CR, cs.AI, cs.CL, cs.LG

arXiv PDF

📄 Beyond Data Privacy: New Privacy Risks for Large Language Models

2025-09-20

Авторы:

Yuntao Du, Zitao Li, Ninghui Li, Bolin Ding

## Контекст Large Language Models (LLMs) отличаются своим неподдельным умением понимать и обрабатывать естественный язык, принимать разумные решения и выполнять автономные функции. Во времена быстрого развития интеллектуальных систем, они приобрели значительное применение в различных областях, от виртуальных помощников до моделей для сферы финансов. Однако этот прогресс привносил с ним значительные вопросы в области конфиденциальности. Несмотря на то, что многочисленные исследования стремились уменьшить риски связанные с защитой данных во время обучения моделей, меньше внимания уделялось новым угрозам, возникающим при использовании LLMs в реальных системах. Интеграция LLMs в приложения и их применение для автоматической генерации решений стали открывать новые возможности для нежелательного дата-проникновения. Эти угрозы могут привести к различным последствиям, включая легковерное разглашение пользовательских данных, финансовые потери и ухудшение доверия к технологиям. ## Метод Мы предлагаем обобщенный подход к исследованию новых рисков для конфиденциальности, связанных с выводом LLMs в производственное использование. Наше исследование основывается на многоуровневом анализе технологий, включая оценку проблем, связанных с автоматизированным разбором данных, а также определение возможных компонентов, открывающих возможности для атак. Мы рассматриваем особенности работы LLMs в различных приложениях, включая системы с широким кругом взаимодействия, и выявляем ситуации, при которых могут возникнуть дефекты в работе моделей. Затем мы проводим эмпирическую оценку этих уязвимостей, используя наборы данных, соответствующих реальным сценариям. ## Результаты Проведенные эксперименты показали, что многие LLMs, включая высокопроизводительные, оказываются уязвимыми к ряду новых угроз. Мы обнаружили, что некоторые модели могут давать ответы, в которых вкрадываются конфиденциальные данные, например, те, которые были введены в ходе обучения или тестирования. Эксперименты также показали, что злоумышленники могут использовать специально созданные запросы для извлечения конфиденциальных данных, в том числе входящих в защищенные базы. Запуск этих атак во время реального эксплуатационного использования LLMs может привести к серьезным последствиям, включая хищение персональных данных и финансовые потери. Мы также проанализировали реальные сценарии использования LLMs в сферах банковских транзакций и медицины, где подобные угрозы могут быть особенно острыми. ## Значимость Полученные результаты подчеркивают необходимость в развитии новых подходов к об

Annotation:

Large Language Models (LLMs) have achieved remarkable progress in natural language understanding, reasoning, and autonomous decision-making. However, these advancements have also come with significant privacy concerns. While significant research has focused on mitigating the data privacy risks of LLMs during various stages of model training, less attention has been paid to new threats emerging from their deployment. The integration of LLMs into widely used applications and the weaponization of t...

ID: 2509.14278v1 cs.CR, cs.AI, cs.LG

arXiv PDF

📄 The Sum Leaks More Than Its Parts: Compositional Privacy Risks and Mitigations in Multi-Agent Collaboration

2025-09-20

Авторы:

Vaidehi Patil, Elias Stengel-Eskin, Mohit Bansal

## Контекст Становятся все более реалистичными ситуации, когда большие языковые модели (LLMs) применяются в качестве членов многоагентных систем, где они обмениваются данными и совместно выполняют задачи. Это свойство открывает новые возможности, но при этом создает риски для конфиденциальности, которые могут быть недооценены в обычных оценках производительности. Например, отдельные ответы моделей могут быть безопасными, но композиция ответов в ходе многошаговых взаимодействий может позволить злоумышленнику восстановить конфиденциальные данные. Это возникающее явление, называемое **"композиционным утечкой приватности"**, требует новых подходов к защите конфиденциальности в таких системах. Необходимо понять, как сложные взаимодействия между агентами могут привести к такой утечке, и разработать эффективные способы ее предотвращения. ## Метод Разработана архитектура, включающая два новых подхода к защите конфиденциальности в многоагентных системах с LLMs. **Theory-of-Mind defense (ToM)** предполагает, что агенты анализируют мотивы вопрошающего и могут предсказать, как их ответ может быть использован в пользу злоумышленника. **Collaborative Consensus Defense (CoDef)** предполагает, что несколько агентов совместно принимают решения, ограничивая раскрытие конфиденциальных данных. Основной идеей является то, чтобы сбалансировать защиту приватности и целесообразность выполнения задачи. Для оценки этих гипотез использованы синтетические тестовые наборы, в которых эксперименты показывают, насколько эффективно эти методы блокируют композиционные утечки и сохраняют качество выполнения задач. ## Результаты В ходе экспериментов сравнивались эффективность двух подходов: **ToM** и **CoDef**. Обнаружено, что **ToM** эффективно блокирует утечки приватности в контексте композиционных запросов, но может снижать качество решения задач в более простых случаях. **CoDef**, в свою очередь, достигает более гармоничного баланса между защитой и качеством выполнения задач, показывая более высокий баланс обоих показателей (79.8%) в сравнении с другими подходами. Эти результаты подтверждают, что **CoDef** дает наилучший результат при сбалансированной защите и продуктивности. ## Значимость Выявленный подход к защите приватности является релевантным для многоагентных систем, где LLMs применяются в различных приложениях, включая системы управления, медицинские системы и системы управления ИИ. Разработанные методы могут быть применены для защиты конфиденциальных данных в контекстах, где композиция ответов может привести к риску утечки. Этот подход также

Annotation:

As large language models (LLMs) become integral to multi-agent systems, new privacy risks emerge that extend beyond memorization, direct inference, or single-turn evaluations. In particular, seemingly innocuous responses, when composed across interactions, can cumulatively enable adversaries to recover sensitive information, a phenomenon we term compositional privacy leakage. We present the first systematic study of such compositional privacy leaks and possible mitigation methods in multi-agent ...

ID: 2509.14284v1 cs.CR, cs.AI, cs.CL

arXiv PDF

1
2
29
30
31
32
33
46
47

Показано 301 - 310 из 470 записей