📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Network-Level Prompt and Trait Leakage in Local Research Agents

2025-08-30

Авторы:

Hyejun Jeong, Mohammadreze Teymoorianfard, Abhinav Kumar, Amir Houmansadr, Eugene Badasarian

#### Контекст Web и Research Agents (WRAs) — это модели языка, основанные на технологии глубокого обучения, которые анализируют сложные темы в сети Интернет. Они могут использоваться в различных сферах, включая организационные и индивидуальные нужды, где требуется конфиденциальность и защита данных. Тем не менее, WRAs могут быть уязвимы к атакам сетевых вторжений, которые могут выполняться пассивными адверсари, такими как провайдеры услуг доступа к сети. Эти атаки могут привести к утечке чувствительных данных, включая информацию о поведении пользователя. Известно, что WRAs могут стать целью таких атак, так как они выполняют многократные запросы к разным серверным ресурсам, что дает возможность различить их сетевые трассы. Эта ситуация является особенно актуальной в случае использования WRAs для скрытой информации или для защиты прав конфиденциальности пользователя. #### Метод Для исследования уязвимостей WRAs были применены методы, основанные на экспериментальном подходе. Был создан новый датасет, включающий сетевые трассы WRAs, образованные в результате поисковых запросов, а также запросов, сформированных синтетическими профилями. Для оценки схожести между исходными и восстановленными запросами была разработана метрика OBELS. Были проведены эксперименты для восстановления структуры запросов и характеристик пользователей. Атака проводилась в условиях многосессионного использования WRAs, чтобы оценить ее эффективность в разных сценариях. Особенностью метода является его устойчивость к помехам и частичности данных. Также были разработаны методы ограничения доменного разнообразия и маскировки сетевых трасс для снижения эффекта атаки. #### Результаты В ходе экспериментов было показано, что атака на WRAs позволяет восстановить практически 73% функционального и доменного знания, содержащегося в исходных запросах. Было получено, что средний уровень точности восстановления пользовательских характеристик составляет 19 из 32 характеристик. Эксперименты показали, что атака остается эффективной при условии частичности обслуживания и шумных условиях. Было также продемонстрировано, что ограничение доменного разнообразия и маскировка сетевых трасс способствуют снижению эффективности атаки, при этом оказывая незначительное влияние на полезность WRAs. #### Значимость Результаты исследования имеют значительное значение для развития систем WRAs, так как показывают возможность использования этих систем для защиты конфиденциальности пользователей. Это может быть применено в различных сферах, включа

Annotation:

We show that Web and Research Agents (WRAs) -- language model-based systems that investigate complex topics on the Internet -- are vulnerable to inference attacks by passive network adversaries such as ISPs. These agents could be deployed \emph{locally} by organizations and individuals for privacy, legal, or financial purposes. Unlike sporadic web browsing by humans, WRAs visit $70{-}140$ domains with distinguishable timing correlations, enabling unique fingerprinting attacks. Specifically, we...

ID: 2508.20282v1 cs.CR, cs.AI

arXiv PDF

📄 Surveying the Operational Cybersecurity and Supply Chain Threat Landscape when Developing and Deploying AI Systems

2025-08-30

Авторы:

Michael R Smith, Joe Ingram

## Контекст AI-системы полностью переопределили сферу ИТ, предоставив мощные возможности в различных областях, включая промышленность, здравоохранение и финансы. Однако эти возможности включают в себя собственные угрозы, которые часто остаются незамеченными в рамках традиционных подходов к ИТ-безопасности. Особенно затронута сфера ИТ-зависимости, где традиционные подходы к оценке безопасности часто остаются неадекватными. Атакующие группировки становятся все более ориентированы на воздействие на системы AI для достижения потенциально деструктивных результатов, таких как замедление системной работы, поток ложноположительных результатов или ухудшение точности моделей. Наша мотивация заключается в изучении кибербезопасности и рисков в подсети под названием "Cybersecurity Threat and Risk Assessment (CTRA)", которая позволяет обеспечить безопасность интегрированных AI-систем. ## Метод Мы применяем модель «Cybersecurity Threat and Risk Assessment (CTRA)», чтобы детально изучить риски в жизненном цикле AI-системы. Эта модель позволяет рассмотреть все возможные угрозы к подключенным AI-системам, включая подключенные сети, входящие и исходящие данные, а также процессы взаимодействия с пользователями. Мы анализируем различные аспекты безопасности, такие как защита от SQL-инъекций, ограничение доступа к конфиденциальным данным, шифрование информации и другие меры, которые могут быть применены на разных этапах жизненного цикла. Также мы используем методы, позволяющие определить точки проникновения, а также системы мониторинга и анализа, чтобы обеспечить единообразную кибербезопасность. ## Результаты Мы проводили эксперименты, рассматривая различные сценарии атак на AI-системы, включая SQL-инъекции, атаки с использованием взломанных учетных данных и многоуровневые атаки. Методом CTRA мы выявили слабые места в жизненном цикле AI-системы, в том числе недостаточное шифрование данных, неправильный конфигурационный файл и необходимость большего контроля над сетевым доступом. Также мы выявили, что некоторые атаки могут привести к высокому уровню ложноположительных результатов, что может привести к замедлению системной работы. В целом, наша практика позволяет установить эффективные меры безопасности и снизить риски, связанные с интеграцией AI в системы. ## Значимость Анализ рисков в жизненном цикле AI-системы имеет значительное значение для различных сфер, включая финансы, промышленность и здравоохранение. Метод CTRA позволяет разработать собственные подходы к защите AI-систем, чтобы обеспечить их надежность и высокую работоспособ

Annotation:

The rise of AI has transformed the software and hardware landscape, enabling powerful capabilities through specialized infrastructures, large-scale data storage, and advanced hardware. However, these innovations introduce unique attack surfaces and objectives which traditional cybersecurity assessments often overlook. Cyber attackers are shifting their objectives from conventional goals like privilege escalation and network pivoting to manipulating AI outputs to achieve desired system effects, s...

ID: 2508.20307v1 cs.CR, cs.AI

arXiv PDF

📄 BridgeShield: Enhancing Security for Cross-chain Bridge Applications via Heterogeneous Graph Mining

2025-08-30

Авторы:

Dan Lin, Shunfeng Lu, Ziyan Liu, Jiajing Wu, Junyuan Fang, Kaixin Lin, Bowen Song, Zibin Zheng

#### Контекст Cross-chain bridges являются ключевым компонентом для обеспечения интеграции различных блокчейнов, обеспечивая interoperability, но их широкое распространение привлекает атаки хакеров. Это происходит из-за ограниченности интеграции между chains и проблем с прозрачностью в сторонних моделях coordination. Традиционные методы определения атак ориентированы на single-chain моделирование, не учитывая cross-chain dependencies. Этот аспект остается недооцененным, что создает уязвимости в безопасности. Наша мотивация заключается в разработке нового метода, который может учитывать cross-chain semantics и усилить безопасность в сетях multi-chain. #### Метод BridgeShield представляет собой детально организованную модель, основанную на Heterogeneous Graph Attention Networks (HGAN). В этой модели мы строим unified graph representation, включающий source chain, off-chain coordination и destination chain. Механизмы intra-meta-path attention и inter-meta-path attention способствуют точному выявлению особенностей и приоритету cross-chain dependencies. Мы также использовали advanced preprocessing для выделения специфичных patterns в cross-chain transactions, что улучшает качество детекции. #### Результаты Мы провели эксперименты на 51 реальных cross-chain attack events, чтобы оценить эффективность BridgeShield. Модель показала средний F1-score в районе **92.58%**, что позволяет значительно улучшить результаты стандартных детекторов (добавление **24.39%**). Мы также провели ablation study, который подтвердил важность каждого компонента модели, в том числе intra-meta-path и inter-meta-path attention. #### Значимость BridgeShield может применяться в различных областях, таких как blockchain security, fraud detection и cross-chain interoperability. Он обеспечивает более точный анализ cross-chain dependencies, что увеличивает прозрачность и безопасность в multi-chain системах. Важное преимущество BridgeShield заключается в том, что он может быть интегрирован с разными blockchain-платформами и инструментами, обеспечивая scalable solution для защиты cross-chain bridges. #### Выводы Наша работа представляет новую модель BridgeShield для усовершенствования безопасности cross-chain bridges. Мы доказали, что модель эффективно работает в real-world сценариях и превосходит существующие методы. Будущие исследования будут направлены на улучшение точности и масштабируемости модели, а также на ее интеграцию в более широкие системы blockchain monitoring.

Annotation:

Cross-chain bridges play a vital role in enabling blockchain interoperability. However, due to the inherent design flaws and the enormous value they hold, they have become prime targets for hacker attacks. Existing detection methods show progress yet remain limited, as they mainly address single-chain behaviors and fail to capture cross-chain semantics. To address this gap, we leverage heterogeneous graph attention networks, which are well-suited for modeling multi-typed entities and relations, ...

ID: 2508.20517v1 cs.CR, cs.AI

arXiv PDF

📄 Multi-Agent Penetration Testing AI for the Web

2025-08-30

Авторы:

Isaac David, Arthur Gervais

## Контекст В последние годы AI-powered development platforms стали значительно облегчать создание программного обеспечения, делая его доступным для широкой аудитории. Однако эта демократизация привела к скалирующейся проблеме в области тестирования безопасности. Изучения показывают, что до 40% АI-генерируемого кода содержит уязвимости, что делает традиционные методы тестирования неэффективными. Быстрота развития AI-технологий стала значительно выше, чем мощность современного тестирования безопасности, что приводит к угрозе для развития системного программного обеспечения. Наша работа, MAPTA (Multi-Agent Penetration Testing AI for the Web), предлагает решение этой проблемы, предлагая многоагентную систему, которая может автоматически проводить безопасность сетевых приложений, используя лучшие практики в области тестирования безопасности. ## Метод MAPTA является многоагентной системой, которая объединяет orchestration large language models с инструментами выполнения и end-to-end exploit validation. Она автоматически определяет уязвимости в web-приложениях, используя различные атаки, такие как SSRF, broken authorization, SQL и template injection. Метод также включает в себя широко известные технологии, такие как rule-based agents, tool-grounded execution и end-to-end exploit validation, чтобы обеспечить эффективность и точность. Используя эти методы, мы можем создавать современные и практичные решения для тестирования безопасности, которые могут быть использованы вместе с AI-системами. ## Результаты Мы провели тестирование MAPTA на 104-частоте XBOW benchmark, получив 76.9% overall success. Мы достигли 100% success на SSRF и misconfiguration vulnerabilities, 83% на broken authorization, и высокие результаты на injection attacks, таких как server-side template injection (85%) и SQL injection (83%). Однако мы столкнулись с проблемами в области cross-site scripting (57%) и blind SQL injection (0%). Наша система также провела подробный cost analysis, показав, что успешные попытки имели медианный cost $0.073, в то время как неудачные попытки имели cost $0.357. Это демонстрирует эффективность MAPTA в выборе ресурсов, что позволяет ставить ранние точки остановки при примерно 40 tool calls или $0.30 per challenge. ## Значимость MAPTA имеет реальное значение в сфере тестирования безопасности. Она была применена к open-source GitHub-репозиториям с 8K-70K stars, и нашла критические уязвимости, такие как RCEs, command injections, secret exposure и arbitrary file write. Все найденные уязвимости были responsibly disclosed, и 10 из них находятся под CVE review. MAPTA также показывает эффективность своего работы с малыми затратами, что демонстрирует возможность быстрого и эффективного тестирования безопасности для разработчиков. ## Выводы MAPTA представляет собой прорыв в области автономного тестирования безопасности. Она доказывает свою эффективность в сложных условиях и предлагает перспективы для будущих исследований в

Annotation:

AI-powered development platforms are making software creation accessible to a broader audience, but this democratization has triggered a scalability crisis in security auditing. With studies showing that up to 40% of AI-generated code contains vulnerabilities, the pace of development now vastly outstrips the capacity for thorough security assessment. We present MAPTA, a multi-agent system for autonomous web application security assessment that combines large language model orchestration with t...

ID: 2508.20816v1 cs.CR, cs.AI

arXiv PDF

📄 JADES: A Universal Framework for Jailbreak Assessment via Decompositional Scoring

2025-08-30

Авторы:

Junjie Chu, Mingjie Li, Ziqing Yang, Ye Leng, Chenhao Lin, Chao Shen, Michael Backes, Yun Shen, Yang Zhang

## Контекст Jailbreak, определяемый как попытка достичь незапланированного поведения системы, представляет собой ключевую проблему в области безопасности и моделирования языка. Несмотря на то, что многие методики были разработаны для снижения риска jailbreak, не удалось создать единого метода для точного определения успеха попыток jailbreak. Традиционные методы основываются на поверхностных или ненадежных критериях, которые часто не соответствуют реальному поведению системы. Это приводит к несогласованным оценкам и потерей доверия в результаты. Отсутствие конструктивных инструментов для точной оценки jailbreak подрывает надежность исследований в этом направлении. Мы предлагаем JADES как решение, предназначенное для устранения этих проблем. ## Метод JADES (Jailbreak Assessment via Decompositional Scoring) представляет собой универсальный фреймворк для оценки jailbreak, который работает путем декомпозиции входного вредоносного запроса на набор взвешенных подзапросов. Каждый подзапрос оценивается отдельно, а полученные подскоры высчитываются в суммарную оценку запроса. Для улучшения точности, JADES использует модуль факт-чекинга, который распознает и отклоняет ненадежные респонсы, включая "халлуцинации" (несоответствие реальности). Фреймворк автоматизирует процесс оценки, уменьшая субъективность и неточность, которые часто встречаются в традиционных методах. Эта архитектура обеспечивает последовательность и точность в оценке jailbreak. ## Результаты Мы проверили JADES на JailbreakQR, новый датасет, состоящий из 400 пар jailbreak-проблем и ответов, тщательно проанализированных людьми. JADES показал 98.5% согласованность с оценками людей, существенно превосходя существующие методы. Кроме того, мы провели эксперименты на пяти популярных jailbreak-атаках примененных к четырем различным большим языковым моделям. Оценка успешности атак снизилась в значительной степени по сравнению с предыдущими методами оценки. Например, LAA's атака на GPT-3.5-Turbo уменьшилась с 93% до 69%. Эти результаты демонстрируют, что JADES обеспечивает более точные и неуклонные оценки jailbreak. ## Значимость JADES может быть применен в многочисленных областях, включая мониторинг безопасности, проверку моделей языка и исследования jailbreak. Он предоставляет точную, консистентную и интерпретируемую оценку, которая может использоваться для определения успешности jailbreak-попыток. Этот фреймворк также позволяет выявлять слабые места в защите моделей и улучшать их безопасность. Наша работа может способствовать развитию безопасных и надежных технологий в области глубокого обучения. ## Выводы JADES достигает

Annotation:

Accurately determining whether a jailbreak attempt has succeeded is a fundamental yet unresolved challenge. Existing evaluation methods rely on misaligned proxy indicators or naive holistic judgments. They frequently misinterpret model responses, leading to inconsistent and subjective assessments that misalign with human perception. To address this gap, we introduce JADES (Jailbreak Assessment via Decompositional Scoring), a universal jailbreak evaluation framework. Its key mechanism is to autom...

ID: 2508.20848v1 cs.CR, cs.AI

arXiv PDF

📄 AI Agentic Vulnerability Injection And Transformation with Optimized Reasoning

2025-08-30

Авторы:

Amine Lbath, Massih-Reza Amini, Aurelien Delaitre, Vadim Okun

Огромный рост сложности программных систем и угроз в виде кибер-атак привели к необходимости эффективных методов автоматизированного обнаружения и устранения уязвимостей. Традиционные подходы, такие как статический анализ кода, сталкиваются с проблемами скалируемости, адаптивности и высокими ценами на ошибки. Авторы предлагают новую рамку для автоматического введения реалистичных уязвимостей в код C/C++, используя мульти-агентные системы с использованием технологии Retrieval-Augmented Generation и оптимизированных методов гармонизации весов модели. Это позволяет эффективно внедрять уязвимости и создавать высококачественные данные для обучения моделей. Исследование показало, что новый подход достигает успешности внедрения уязвимостей на уровне функций от 89% до 95%, превышая другие методы. Это демонстрирует перспективу AI в автоматизации процессов обнаружения и моделирования уязвимостей.

Annotation:

The increasing complexity of software systems and the sophistication of cyber-attacks have underscored the critical need for effective automated vulnerability detection and repair systems. Traditional methods, such as static program analysis, face significant challenges related to scalability, adaptability, and high false-positive and false-negative rates. AI-driven approaches, particularly those using machine learning and deep learning models, show promise but are heavily reliant on the quality...

ID: 2508.20866v1 cs.CR, cs.AI

arXiv PDF

📄 CORTEX: Composite Overlay for Risk Tiering and Exposure in Operational AI Systems

2025-08-29

Авторы:

Aoun E Muhammad, Kin Choong Yow, Jamel Baili, Yongwon Cho, Yunyoung Nam

## Контекст В последние годы роль искусственного интеллекта (AI) в высокорисковых секторах, таких как здравоохранение, финансы, образование, правосудие и инфраструктура, существенно выросла. Это привело к повышению потенциала и воздействия неполадок этих систем. От искажений данных до серьезных ошибок, включая смертные последствия, неполадки AI стали практическими, регулярными и системными рисками. Из этого вытекает необходимость в систематической оценке и управлении рисками AI. Несмотря на развитие методов мониторинга и оценки, полномочия ответственных за риски часто ограничиваются внутренними моделями или отчетами, не удовлетворяющими потребностям в масштабируемом и четко определенном подходе к оценке рисков. Чтобы удовлетворить эту потребность, предлагается CORTEX (Composite Overlay for Risk Tiering and Exposure), открытое решение для сбора и оценки рисков в AI-системах. ## Метод CORTEX представляет собой многоуровневую систему оценки рисков, основанную на анализе более 1200 инцидентов AI, задокументированных в AI Incident Database (AIID). Основная методология включает в себя: 1. **Категоризацию рисков**: 29 технических групп возможных неполадок, таких как детектируемость, воспроизводимость и адверсальный риск. 2. **Воздействие и шанс возникновения**: каждая группа оценивается с помощью формулы utility-adjusted Likelihood x Impact, чтобы соотнести риски с контекстом и пользовательским воздействием. 3. **Государственные и контекстуальные модификаторы**: оценка соответствия регулирующим требованиям, таким как EU AI Act, NIST RMF и OECD-принципы. 4. **Технические метрики**: оценка поверхностных рисков, таких как детектируемость, трассировка и адверсальный риск. 5. **Контекстуальные модификаторы**: учет дополнительных рисков, связанных с окружающей средой и резидентными факторами. 6. **Агрегация рисков**: шаг заключительный — моделирование волатильности и долгохвостаных рисков с помощью Байесовской оценки и монотехновых симуляций. ## Результаты На основе тестовых экспериментов, проведенных с использованием CORTEX, были оценены риски в различных сценариях, включая системы медицинского мониторинга, финансовых прогнозов и систем управления трафиком. Результаты показали, что CORTEX эффективно локализует рисковые группы, сочетая технические и контекстуальные факторы. Очень важно, что гибкая архитектура CORTEX дает возможность адаптации к разным секторам и регуляторным требованиям, что увеличивает его ценность в реальных условиях. ## Значимость CORTEX может применяться во многих областях, включая мониторинг риско

Annotation:

As the deployment of Artificial Intelligence (AI) systems in high-stakes sectors - like healthcare, finance, education, justice, and infrastructure has increased - the possibility and impact of failures of these systems have significantly evolved from being a theoretical possibility to practical recurring, systemic risk. This paper introduces CORTEX (Composite Overlay for Risk Tiering and Exposure), a multi-layered risk scoring framework proposed to assess and score AI system vulnerabilities, de...

ID: 2508.19281v1 cs.CR, cs.AI

arXiv PDF

📄 RL-Finetuned LLMs for Privacy-Preserving Synthetic Rewriting

2025-08-29

Авторы:

Zhan Shi, Yefeng Yuan, Yuhong Liu, Liang Cheng, Yi Fang

## Контекст В настоящее время системы машинного обучения полагаются на большие и высококачественные данные, необходимые для эффективной моделирования и анализа. Однако многие такие данные включают в себя конфиденциальную информацию, которая может повлечь за собой риски для конфиденциальности и потенциальные нарушения законодательства. Ранее использованные методы анонимности часто оказываются недостаточно эффективными, так как не учитывают неявные признаки, такие как стиль письма или топический контекст. Эти неявные признаки могут быть использованы для идентификации исходного автора данных. В этом контексте важно разработать методы, которые не только обеспечат сохранение конфиденциальности, но и сохранят качество данных для применения в моделях машинного обучения. ## Метод Мы предлагаем использовать процедуру гибкой оптимизации на основе алгоритмов глубокого обучения, которая заключается в том, чтобы применять модели глубокого обучения в качестве основы для повышения качества выводимых данных. Мы используем гибкие архитектуры, которые могут обрабатывать различные типы данных и изменяться в зависимости от конкретного задания. Наша модель основывается на подходе, который включает в себя совмещение различных наградных функций для оптимизации критериев качества, среди которых являются семантическая точность, обфускация исходного автора и разнообразие вывода. Мы также используем минимальные значения среднего значения для повышения эффективности процесса. ## Результаты Мы проводим эксперименты на широком диапазоне данных, включая корпусы, содержащие конфиденциальные данные. Наши результаты показывают, что разработанная модель позволяет повысить уровень конфиденциальности данных, сохранив при этом качество и точность вывода. Мы также проводим сравнение с другими методами, показывающими, что наш подход показывает значительное преимущество в обеспечении конфиденциальности без существенного потери качества данных. Также мы проводим анализ изменений в структуре данных, показывающих, что наш подход уместно реагирует на необходимость обфускации стиля и контекста. ## Значимость Наш подход имеет широкие возможноhedenо применения в различных областях, где необходимо обеспечение конфиденциальности данных. Например, он может применяться в медицине, финансах и юридических сферах, где качество и конфиденциальность данных являются критичными. Метод также может использоваться для создания более безопасных систем машинного обучения, уменьшая риск раскрытия конфиденциальной информации. Это может привести к повышению уровня доверия к системам, в которых используются синтетически

Annotation:

The performance of modern machine learning systems depends on access to large, high-quality datasets, often sourced from user-generated content or proprietary, domain-specific corpora. However, these rich datasets inherently contain sensitive personal information, raising significant concerns about privacy, data security, and compliance with regulatory frameworks. While conventional anonymization techniques can remove explicit identifiers, such removal may result in performance drop in downstrea...

ID: 2508.19286v1 cs.CR, cs.AI, cs.LG

arXiv PDF

📄 Prompt-in-Content Attacks: Exploiting Uploaded Inputs to Hijack LLM Behavior

2025-08-29

Авторы:

Zhuotao Lian, Weiyu Wang, Qingkui Zeng, Toru Nakanishi, Teruaki Kitasuka, Chunhua Su

## Контекст Large Language Models (LLMs) стали ключевым инструментом в различных областях, включая обработку естественного языка, поисковые системы и системы рекомендаций. Они обладают высокой точностью и гибкостью при выполнении задач, таких как суммирование текста, ответы на вопросы и генерация текста. Однако, благодаря их широкому распространению, LLMs становятся целью все более изощренных атак. Одной из наиболее актуальных проблем является возможность внедрения вредоносных инструкций в вводимые пользователем данные. Эти инструкции могут повлиять на поведение модели, приводя к изменению вывода без видимых признаков нарушения. Причиной этого является недостаток в изоляции ввода или недостаточная обработка входных данных. Эта проблема приобретает особое значение, так как LLMs часто используются в приложениях, где пользователи могут отправлять документы или вводить текст непосредственно в модель, например, в системах анализа рисков или системах обработки клиентских запросов. Целью данного исследования является изучение этого нового класса атак, а также поиск эффективных методов их противодействия. ## Метод Для изучения этой проблемы была разработана методология, основанная на создании инъекционных тестов, включающих вредоносные инструкции, во входные данные пользователей. Исследование было проведено на нескольких популярных LLMs, в том числе GPT-3, CoPilot и других. Методы включали разбор структуры входных данных, анализ внутренних механизмов моделей, а также эмпирический анализ результатов. Технические решения включали анализ контекста ввода, использование моделей с разделенными входными данными и изоляции ввода, а также разработку инструментов для обнаружения и предотвращения таких атак. Архитектура исследования включала модели, которые были оценены на возможности подделки и уязвимости к таким атакам. ## Результаты Эксперименты показали, что такие атаки могут быть эффективно применены в различных LLMs, включая GPT-3 и другие модели. Например, в одном из сценариев, когда пользователь отправил документ с вредоносными инструкциями, модель GPT-3 генерировала выводы, которые не соответствовали оригинальному вводу пользователя. В другом сценарии, когда пользователь вводил текст с вредоносными инструкциями, модель изменила свои рекомендации, чтобы соответствовать приведенным вредоносным инструкциям. Результаты показывают, что такие атаки могут привести к изменению результатов, включая предложение ложных фактов или выводы, которые не соответствуют истине. Такие результаты были получены на различных типах ввода, в том числе документах, текстах и данных, представленных в разных формата

Annotation:

Large Language Models (LLMs) are widely deployed in applications that accept user-submitted content, such as uploaded documents or pasted text, for tasks like summarization and question answering. In this paper, we identify a new class of attacks, prompt in content injection, where adversarial instructions are embedded in seemingly benign inputs. When processed by the LLM, these hidden prompts can manipulate outputs without user awareness or system compromise, leading to biased summaries, fabric...

ID: 2508.19287v1 cs.CR, cs.AI

arXiv PDF

📄 Tricking LLM-Based NPCs into Spilling Secrets

2025-08-29

Авторы:

Kyohei Shiomi, Zhuotao Lian, Toru Nakanishi, Teruaki Kitasuka

## Контекст Large Language Models (LLMs) становятся все более популярными в игровых проектах, где используются для динамического генерирования диалогов NPC (non-player characters). Однако эта интеграция не без проблем. Одним из вы sobstvenных рисков является возможность проникновения внешних воздействий в систему, которое может привести к раскрытию конфиденциальной информации, которая должна оставаться недоступной. Авторы статьи проводят эксперименты с целью изучить возможность с помощью технологии adversarial prompt injection (атаки с использованием внедрения адверсарных команд) произвести систему на раскрытие тайных сведений. Эти сведения могут включать в себя личные данные, сценарии или другие сведения, которые не должны быть доступны игрокам. Эта проблема становится актуальной в связи с ростом популярности искусственного интеллекта в геймдизайне и необходимостью обеспечить безопасность данных в игровых средах. ## Метод В ходе исследования использовались следующие методы: 1. **Создание тестовых сценариев.** Авторы разрабатывали сценарии, в которых NPC должен был выдавать конкретные ответы, основанные на заранее продуманных скриптах. 2. **Использование технологии adversarial prompt injection.** Атака проводилась путем внедрения специально сформированных вопросов или запросов, которые могут конфликтовать с оригинальным скриптом NPC. 3. **Оценка результатов.** Авторы измеряли, насколько эффективна атака в соответствии с вероятностью раскрытия секретных сведений. 4. **Анализ безопасности.** Оценивались системные меры защиты и возможность исправления уязвимостей. Экспериментальная среда строилась на основе доступных для исследования LLM-based NPC и использовалась для подтверждения злоупотребления внедрением адверсарных запросов. ## Результаты В ходе экспериментов была проверена эффективность атаки на несколько LLM-based NPC с использованием разных способах внедрения адверсарных запросов. Оказалось, что в некоторых случаях NPC мог выдавать конфиденциальные данные, которые должны были оставаться недоступными игрокам. Например, при внедрении конкретных вопросов NPC мог "подчиняться" и предоставлять доступ к тайной информации. Эти результаты были подтверждены с помощью подробного анализа работы системы, включая моделирование разных уровней системной безопасности. ## Значимость Результаты исследования имеют значительное значение для обеспечения безопасности в игровых проектах, которые используют LLM-based NPC. Например, это можно применить в следующих областях: - **Обеспечение конфиденциальности данных игроков.** Изучение рисков внедрения адверсарных запросов поз

Annotation:

Large Language Models (LLMs) are increasingly used to generate dynamic dialogue for game NPCs. However, their integration raises new security concerns. In this study, we examine whether adversarial prompt injection can cause LLM-based NPCs to reveal hidden background secrets that are meant to remain undisclosed.

ID: 2508.19288v1 cs.CR, cs.AI

arXiv PDF

Показано 381 - 390 из 470 записей