📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня
Авторы:

Xinran Zheng, Xingzhi Qian, Yiling He, Shuo Yang, Lorenzo Cavallaro

## Контекст Автоматизированные методы классификации зловредных программ (malware) достигли высокой точности, но удовлетворяют не все потребности в области безопасности. На сегодняшний день, возникла необходимость в аудите поведения зловредных приложений, которая позволяет получить конкретные и доказываемые выводы о характере их действий. Эта задача становится сложной из-за того, что злоумышленники скрывают свои намерения в сложных фреймворках и приложениях, что делает ручной анализ дорогим и медленным процессом. Бо LLM могут стать помощником в этой области, но их потенциал в аудите поведения лайков остается мало исследованным. Это связано с тремя основными проблемами: недостаточность тонкой гранулярности в аннотациях, преобладанием безопасного кода, маскирующего зловредные сигналы, и недостаточной надёжности выводов LLMs, оказавшейся подверженной гипотезам. Для стандартизации и оценки потенциала LLMs в этой области был разработан MalEval — комплексный фреймворк для центровных аудитов Android-malware. ## Метод MalEval предлагает специально сконструированную экспертно подтверждённую базу данных, содержащую функциональные аудиторские отчеты и обновлённый список чувствительных API-интерфейсов, чтобы уменьшить неопределённость и улучшить качество обучающих данных. Для определенности и доказываемости результатов, MalEval представляет функциональные представления структуры функций в качестве интермедиате атрибуции. Он определяет 4 задачи, интересующие аналитиков: приоритетизацию функций, привлечение доказательств, синтез поведения, и дискриминацию примеров, с помощью доменно-специальных метрик и единой ориентированной метрики рабочей нагрузки. Этот фреймворк позволяет выполнять систематическую оценку семи широко используемых LLMs на курсированной выборке из современных зловредных приложений и неверно классифицированных безопасных приложений. ## Результаты Эксперименты проводились с использованием MalEval на данных относящихся к зловредным приложениям и неверно классифицированным безопасным приложениям. Оценены семь широко используемых LLMs, и их результаты были сравнены по созданным задачам и метрикам. Результаты показали, что хотя LLMs демонстрируют как удачные результаты, они также имеют серьёзные ограничения, особенно в сложных сценариях. Например, они демонстрируют высокую точность в функциональной атрибуции но слабо выполняют задачи глубокого анализа поведения. Эта систематическая оценка позволяет выявить преимущества и ограничения LLMs в области аудита поведения зловредных приложений. ## Значимость MalEval представляет собой
Annotation:
Automated malware classification has achieved strong detection performance. Yet, malware behavior auditing seeks causal and verifiable explanations of malicious activities -- essential not only to reveal what malware does but also to substantiate such claims with evidence. This task is challenging, as adversarial intent is often hidden within complex, framework-heavy applications, making manual auditing slow and costly. Large Language Models (LLMs) could help address this gap, but their auditing...
ID: 2509.14335v1 cs.CR, cs.AI, cs.SE
Авторы:

Guorui Chen, Yifan Xia, Xiaojun Jia, Zhijiang Li, Philip Torr, Jindong Gu

#### Контекст Large language models (LLMs) широко применяются за счет их высокой эффективности и безопасности, обеспеченной гармоничным выравниванием с целевыми ценностями. Однако они остаются уязвимы для jailbreak-атак, при которых модель может породить непристойный или злонамеренный контент. Эта проблема требует эффективных способов обнаружения и предотвращения таких атак. Существующие методы обнаружения jailbreak-атак часто требуют дополнительной вычислительной мощности или множественных проходов модели, что увеличивает стоимость использования LLMs в безопасных приложениях. Мотивация для данного исследования заключается в разработке простого, эффективного и низкозатратного метода для обнаружения jailbreak-атак. #### Метод Мы предлагаем Free Jailbreak Detection (FJD) — простой метод для обнаружения jailbreak-атак, который может быть легко интегрирован в существующие LLM-системы. FJD основывается на значимых различиях в выходных распределениях между jailbreak- и бенгвин-запросами. Метод вводит дополнительную инструкцию при запросе, которая "призывает" модель отвергать нежелательные запросы. Далее, мы усиливаем различия в выходных логитах с помощью температуры для масштабирования. Для дальнейшего улучшения FJD вводится виртуальное обучение инструкций, которое позволяет модели более точно отличать jailbreak-запросы. Эта интегральная архитектура обеспечивает высокую точность в обнаружении jailbreak-атак, не требуя дополнительных вычислений во время прямого использования LLM. #### Результаты Мы проверили FJD на нескольких LLM-системах, включая обученные на данных аллигации. В экспериментах мы сравнили FJD с другими методами обнаружения jailbreak-атак, измеряя точность, полноту и F1-меру. Результаты показали, что FJD показывает высокую точность и низкую ложноположительную стоимость, даже при очень малом дополнительном накладном времени во время инференса. Мы также проанализировали влияние различных факторов, таких как размер модели, температура и виртуальные инструкции, на точность FJD. Результаты показали, что FJD значительно превосходит другие методы в обнаружении jailbreak-атак с минимальными затратами. #### Значимость Метод FJD предлагает доступный и эффективный способ обнаружения jailbreak-атак, значительно сокращая затраты на вычисления. Он может быть легко реализован в существующих LLM-системах без необходимости многократного прохождения модели или дополнительных ресурсов. Это делает FJD привлекательным для приложений, где безопасность и экономичность имеют ключевое значение. Мы также выделяем потенциал FJD для будущих исследований в области безопасности LLMs, включая расширенное применение виртуальных ин
Annotation:
Large language models (LLMs) enhance security through alignment when widely used, but remain susceptible to jailbreak attacks capable of producing inappropriate content. Jailbreak detection methods show promise in mitigating jailbreak attacks through the assistance of other models or multiple model inferences. However, existing methods entail significant computational costs. In this paper, we first present a finding that the difference in output distributions between jailbreak and benign prompts...
ID: 2509.14558v1 cs.CR, cs.AI, cs.CL
Авторы:

Taesoo Kim, HyungSeok Han, Soyeon Park, Dae R. Jeong, Dohyeok Kim, Dongkwan Kim, Eunsoo Kim, Jiho Kim, Joshua Wang, Kangsu Kim, Sangwoo Ji, Woosun Song, Hanqing Zhao, Andrew Chin, Gyejin Lee, Kevin Stevens, Mansour Alharthi, Yizhuo Zhai, Cen Zhang, Joonun Jang, Yeongjin Jang, Ammar Askar, Dongju Kim, Fabian Fleischer, Jeongin Cho, Junsik Kim, Kyungjoon Ko, Insu Yun, Sangdon Park, Dowoo Baik, Haein Lee, Hyeon Heo, Minjae Gwon, Minjae Lee, Minwoo Baek, Seunggi Min, Wonyoung Kim, Yonghwi Jin, Younggi Park, Yunjae Choi, Jinho Jung, Gwanhyun Lee, Junyoung Jang, Kyuheon Kim, Yeonghyeon Cha, Youngjoon Kim

## Контекст Атаки в сфере кибербезопасности становятся все более сложными, что создает целый ряд проблем для широкого круга организаций. Они должны быстро обнаруживать и устранять уязвимости, но также обеспечивать корректность и эффективность используемых систем. Особенно трудно это становится при работе с разными языками программирования и большими кодовыми базами. Дарпа организовала AI Cyber Challenge (AIxCC), чтобы стимулировать развитие систем автоматизированного анализа и устранения уязвимостей. Этот конкурс стал мотивацией для создания ATLANTIS, системы, которая объединяет большие языковые модели (LLMs) с различными анализами программ, включая символьное исполнение, направленное фаззинг и статический анализ. ## Метод ATLANTIS разработана как комплексное решение, которое объединяет многоуровневый подход к анализу программ. Она использует: - **Большие языковые модели (LLMs)** для обработки текстовых запросов и понимания кода на разных уровнях. - **Символьное исполнение** для глубокого понимания выполнения программ и нахождения технических уязвимостей. - **Направленное фаззинг** для эффективного отыскания уязвимостей в разных частях кода. - **Статический анализ** для поиска потенциальных проблем независимо от исполнения. ATLANTIS также имплементирует систему для продуктивного устранения ошибок и создания правильных исправлений. Это решение позволяет быстро адаптироваться к различным типам кода, от C до Java, и обеспечена высокой точностью без потери широкого покрытия. ## Результаты В ходе исследований была проведена многоэтапная оценка ATLANTIS, включающая тестирование на различных кодовых базах. Она показала высокую точность в обнаружении уязвимостей и эффективность в их устранении. Набор данных, использованный в экспериментах, включал различные типы уязвимостей, что позволило проверить систему на реальных условиях. Результаты показали, что ATLANTIS выделяется своей скоростью и точностью, даже при работе с большими и сложными кодовыми базами. ## Значимость ATLANTIS может применяться в различных областях, где необходима быстрая и точная диагностика уязвимостей. Она имеет преимущества перед существующими системами, так как объединяет в себе несколько технологий, обеспечивая более высокую точность и покрытие. Это открывает широкие возможности для создания более безопасных систем, а также может способствовать развитию новых подходов в автоматическом программном исправлении. Также ATLANTIS может использоваться в отраслях, где требуется высокая эффективность анализа, таких как финансы, здравоохранение и ИТ-инфраструкту
Annotation:
We present ATLANTIS, the cyber reasoning system developed by Team Atlanta that won 1st place in the Final Competition of DARPA's AI Cyber Challenge (AIxCC) at DEF CON 33 (August 2025). AIxCC (2023-2025) challenged teams to build autonomous cyber reasoning systems capable of discovering and patching vulnerabilities at the speed and scale of modern software. ATLANTIS integrates large language models (LLMs) with program analysis -- combining symbolic execution, directed fuzzing, and static analysis...
ID: 2509.14589v1 cs.CR, cs.AI
Авторы:

Shashank Shreedhar Bhatt, Tanmay Rajore, Khushboo Aggarwal, Ganesh Ananthanarayanan, Ranveer Chandra, Nishanth Chandran, Suyash Choudhury, Divya Gupta, Emre Kiciman, Sumit Kumar Pandey, Srinath Setty, Rahul Sharma, Teijia Zhao

## Контекст Организационные системы все чаще используют крупные языковые модели (LLMs) для обработки запросов пользователей и принятия решений. Однако это приводит к новым проблемам безопасности, так как эти модели обучаются на корпоративных данных, которые могут содержать конфиденциальную информацию. Особенно затруднительным является сочетание LLMs с технологией Retrieval-Augmented Generation (RAG), которая повышает точность ответа, но также увеличивает риск утечки конфиденциальных данных. Выявлено, что существующие методы защиты, такие как обфускация запросов, фильтрация выходных данных и изоляция систем, часто оказываются неэффективными, так как не могут гарантировать полную защиту от утечки конфиденциальных данных. Это вызывает необходимость в развитии более надежных механизмов защиты, которые могут гарантировать защиту конфиденциальности в средах с множеством пользователей. ## Метод Разработанная архитектура основывается на основе доступа, который предполагает жесткое применение доступа к данным для каждого пользователя и системы. Методология включает в себя несколько ключевых элементов: авторизацию пользователей и доступа к данным на этапе обучения модели, защиту на этапе вывода с помощью ограниченного вывода, а также защиту данных в системе RAG. Эта архитектура разработана с учетом того, чтобы обеспечить жесткое управление доступом к всей информации, взаимодействующей с моделью. Метод также включает в себя разработку моделей, которые могут адаптироваться к этой системе доступа, чтобы обеспечить безопасное и эффективное использование моделей в корпоративных средах. ## Результаты На базе предложенной системы были проведены эксперименты, использовавшие различные данные, в том числе корпоративные данные, для проверки эффективности защиты. Эксперименты показали, что новая модель значительно снижает риск утечки конфиденциальных данных, по сравнению с существующими методами. Также было продемонстрировано, как архитектура позволяет уменьшить влияние нежелательных последствий, таких как недоступность данных или неточность ответов. Тестирование было проведено на различных сценариях, в том числе на сценариях с несколькими пользователями, что демонстрирует устойчивость архитектуры к разным условиям. ## Значимость Предложенная модель может быть применена в различных корпоративных ситуациях, где требуется конфиденциальность данных и безопасность. Она может использоваться для защиты конфиденциальных данных в любой системе, взаимодействующей с языковыми моделями. Эта модель также может привести к значительным улучшениям в обеспе
Annotation:
Large language models (LLMs) are increasingly deployed in enterprise settings where they interact with multiple users and are trained or fine-tuned on sensitive internal data. While fine-tuning enhances performance by internalizing domain knowledge, it also introduces a critical security risk: leakage of confidential training data to unauthorized users. These risks are exacerbated when LLMs are combined with Retrieval-Augmented Generation (RAG) pipelines that dynamically fetch contextual documen...
ID: 2509.14608v1 cs.CR, cs.AI
Авторы:

Yihao Guo, Haocheng Bian, Liutong Zhou, Ze Wang, Zhaoyi Zhang, Francois Kawala, Milan Dean, Ian Fischer, Yuantao Peng, Noyan Tokgozoglu, Ivan Barrientos, Riyaaz Shaik, Rachel Li, Chandru Venkataraman, Reza Shifteh Far, Moses Pawar, Venkat Sundaranatha, Michael Xu, Frank Chu

## Контекст В последние годы становится все более важной проблема обнаружения онлайн-поведения с подкреплением злоумышленников. Особенно это актуально в связи с развитием больших языковых моделей (LLMs), которые встраиваются в различные интерактивные приложения. Традиционные методы обнаружения злоумышленников часто не способны справиться с разнообразными и сложными запросами пользователей в реальном времени, что приводит к недостатку эффективности и точности. Эти проблемы приводят к значительным усилиям в области развития более устойчивых и реального времени моделей для обнаружения злоумышленников. Наша работа сосредоточена на решении этих проблем, предлагая новую модель, которая может обеспечить высокую эффективность и точность при обнаружении вредоносных запросов. ## Метод Мы предлагаем ADRAG (Adversarial Distilled Retrieval-Augmented Guard), двухэтапную модель для обнаружения злоумышленников. В первой стадии, горячеподготовленная модель (teacher model) обучается на адверсарно подготовленных, реплицированных входных данных с целью учиться к распознаванию широкого спектра характеристик входных данных. Во второй стадии, в ходе дистилляции, знания первой стадии передаются в компактную модель (student model). Эта компактная модель работает в реальном времени и использует онлайн-обновленные базы знаний для выявления вредоносных запросов. Наша модель использует технологию репликации входных данных и алгоритмов дистилляции, которые позволяют достичь высокой точности при одновременной реального времени обработки запросов. ## Результаты Мы проверили ADRAG на 10 различных бенчмарках для обнаружения злоумышленников. Модель ADRAG, основанная на модели 149M параметров, демонстрирует высокую эффективность, показывая 98.5% выполнения WildGuard-7B, при этом превосходит модели GPT-4 и Llama-Guard-3-8B на 3.3% и 9.5%, соответственно, в обнаружении запросов за пределами дистрибуции. Она также демонстрирует до 5.6x более низкую задержку (до 300 запросов в секунду), что является решающим фактором для реального времени приложений. ## Значимость Модель ADRAG может быть применена в различных сферах, таких как мониторинг безопасности, финансовые операции, социальные сети и др. Она обеспечивает высокую точность и реальность в реальном времени, что значительно улучшает эффективность в обнаружении вредоносных запросов. Наши результаты показывают, что ADRAG может стать высокоэффективным средством для защиты от онлайн-атак, а также может иметь потенциал для дальнейшего развития в области безопасности и анализа данных. ## Выводы Мы представляем ADRAG, новую модель для обнаружения злоумы
Annotation:
With the deployment of Large Language Models (LLMs) in interactive applications, online malicious intent detection has become increasingly critical. However, existing approaches fall short of handling diverse and complex user queries in real time. To address these challenges, we introduce ADRAG (Adversarial Distilled Retrieval-Augmented Guard), a two-stage framework for robust and efficient online malicious intent detection. In the training stage, a high-capacity teacher model is trained on adve...
ID: 2509.14622v1 cs.CR, cs.AI, cs.LG
Авторы:

Sergio Benlloch-Lopez, Miquel Viel-Vazquez, Javier Naranjo-Alcazar, Jordi Grau-Haro, Pedro Zuccarello

## Контекст В последние годы сеть Интернета вещей (IoT) развивается с поразительной скоростью, а с ней растет и количество устройств, оснащенных микрофонами, выполняющими распознавание звуков прямо на устройстве. Эти устройства обрабатывают важные и часто конфиденциальные данные, делая их привлекательной целью для злоумышленников. Однако ограничения по ресурсам и скорость развития технологий создают сложную среду для обеспечения безопасности. Недостаточное уделение внимания безопасности в таких устройствах может привести к краже данных, перехвату трафика и даже управлению с устройств вне закона. Эта статья рассматривает проблему защиты таких устройств, особенно в свете нарастающих рисков, связанных с развитием технологий квантовых вычислений, которые могут сделать нынешние методы шифрования бессильными. ## Метод Для обеспечения безопасности устройств IoT с микрофонами используется "defence-in-depth" (широкополосная защита), которая разделяет систему на три отдельных доверительных домена: устройство, сеть мобильной связи и облачная среда. Каждый домен связывается с помощью технологии TPM-based remote attestation и мультиметодной аутентификации TLS 1.3. Использована STRIDE-методология для определения угроз (заменить, подделать, злоупотреблять, раскрыть, отказать в обслуживании, изменять). Устройство не может загрузиться и запуститься до тех пор, пока оно не пройдет проверку TPM и не получит разрешение на расшифровку от облака. Данные в памяти защищаются при помощи LUKS, а во время передачи - при помощи TLS 1.3, шифрования Kyber и цифровой подписи Dilithium. Также реализованы такие меры, как шифрование данных на устройстве, трезнаковые модели AI и активность со стороны сенсоров при возникновении неблагоприятных обстоятельств. ## Результаты На основе реализованной архитектуры проведены эксперименты, которые показали высокую эффективность защиты устройств IoT. Были протестированы возможности LUKS для защиты данных на устройстве, а также была проверена работа TLS 1.3 при шифровании информации во время передачи. Также проверена работа цифровой подписи Dilithium для гарантии целостности данных. Результаты показали, что наша модель защиты эффективно справляется с различными видами атак, включая перехват и модификацию данных. Использование новых квантово-безопасных шифров дало дополнительную защиту от дальнейших угроз квантовых вычислений. ## Значимость Предлагаемая модель может быть применена в различных областях, где требуется военная безопасность, в частности для защиты данных во время передачи и хранения. Она также может быть использована в секторе
Annotation:
The rapid proliferation of IoT nodes equipped with microphones and capable of performing on-device audio classification exposes highly sensitive data while operating under tight resource constraints. To protect against this, we present a defence-in-depth architecture comprising a security protocol that treats the edge device, cellular network and cloud backend as three separate trust domains, linked by TPM-based remote attestation and mutually authenticated TLS 1.3. A STRIDE-driven threat model ...
ID: 2509.14657v1 cs.CR, cs.AI
Авторы:

Md Talha Mohsin

## Контекст В современных здравоохранных системах существуют две основные проблемы: нехватка прозрачности в алгоритмах машинного обучения и защита патентных данных. Недостаточная прозрачность приводит к недоверию пользователей к решениям, основанным на искусственном интеллекте, что может повлиять на качество медицинских услуг. Безопасность патентных данных требует гарантии иммутабельности, аудитности и защиты от вмешательства. Блокчейн может решить эти проблемы, обеспечив защиту данных и доказательство их целостности. Однако блокчейн, используемый в сочетании с AI, должен обеспечить не только безопасность, но и прозрачность выводов, чтобы повысить доверие к системам здравоохранения. Наша мотивация заключается в создании фреймворка, который объединяет блокчейн и Explainable AI (XAI) для решения этих задач. ## Метод Мы предлагаем Blockchain-Integrated Explainable AI Framework (BXHF), который интегрирует технологии блокчейна и XAI для создания надежных систем здравоохранения. BXHF использует блокчейн для предоставления многоуровневой безопасности: иммутабельности и аудитности патентных данных. Защищенные данные используются в качестве входных данных для XAI-методов, которые генерируют интерпретируемые и клинически релевантные выводы. Фреймворк также интегрирует федеративное обучение, которое позволяет различным учреждениям обмениваться данными и обучать модели в соответствии с принципами защиты приватности. Архитектура BXHF включает в себя две основные спецификации: гибридную структуру (edge-cloud) для распределенного вычисления и механизмы шифрования для защиты конфиденциальности. ## Результаты Мы проводили эксперименты на наборе данных, содержащем патентные записи и клинические данные, чтобы проверить эффективность BXHF. Мы использовали стандартные метрики для оценки качества моделей (таких как точность, полнота и F1-меру) и метрик XAI (таких как SHAP и LIME). Результаты показали, что BXHF предоставляет высокоточные клинически релевантные выводы, при этом обеспечивая прозрачность и безопасность данных. Мы также провели эксперименты с федеративным обучением, что подтвердило устойчивость фреймворка к различным условиям разделения данных. ## Значимость BXHF может быть применен в различных областях задач здравоохранения. Он позволяет обеспечить безопасное и прозрачное обменом данными между различными учреждениями, что важно для выполнения международных клинических исследований. Благодаря интеграции XAI, BXHF может обеспечить доверие к решениям, основанным на AI, в таких областях, как диагностика редких заболеваний и рекомендации в высокорисковых ситуациях. Этот фреймво
Annotation:
This paper introduces a Blockchain-Integrated Explainable AI Framework (BXHF) for healthcare systems to tackle two essential challenges confronting health information networks: safe data exchange and comprehensible AI-driven clinical decision-making. Our architecture incorporates blockchain, ensuring patient records are immutable, auditable, and tamper-proof, alongside Explainable AI (XAI) methodologies that yield transparent and clinically relevant model predictions. By incorporating security a...
ID: 2509.14987v1 cs.CR, cs.AI, cs.LG
Авторы:

Aarushi Mahajan, Wayne Burleson

## Контекст Безопасность беспроводных систем на основе Lorawan широко используется в различных приложениях, от умных домов до систем мониторинга погоды и систем трекинга. Одной из ключевых проблем в этой области является аутентификация устройств. Традиционные методы, такие как криптографическая аутентификация, требуют значительных вычислительных ресурсов и энергопотребления, что не всегда приемлемо для устройств с ограниченными возможностями. Напротив, Radio Frequency Fingerprint Identification (RFFI) определяет устройства по небольшим аномалиям в их аналоговых схемах, что позволяет избежать тяжелой криптографии. Однако глубокое обучение на спектрограммах, хотя и повышает точность, делает модели уязвимыми для копирования, изменения и эвазии. Мы предлагаем усовершенствованную систему RFFI, которая объединяет возможности watermarking для доказательства владения моделью и систему anomaly detection для обнаружения подозрительных запросов. ## Метод Наша система основывается на использовании ResNet-34, обученного для классификации спектрограмм log-Mel, полученных из сигналов LoRa. Для watermarking используются три различных метода: простая триггерная модель, настроенная для устойчивости к шумам и фильтрам, и скрытая модель с использованием градиентов и весов. Anomaly detection осуществляется с помощью convolutional Variational Autoencoder (VAE) с использованием Kullback-Leibler divergence warm-up и free-bits методов, что позволяет определять запросы, выходящие за пределы ожидаемого распределения. Эти компоненты системы работают вместе для обеспечения высокой точности, устойчивости к атакам и доказательства владения. ## Результаты Мы проверили нашу систему на датасете LoRa, достигнув 94.6% точности в классификации, 98% успеха в watermarking и 0.94 AUROC в обнаружении аномалий. Три различных watermarking-модели показали свою эффективность в защите модели от копирования и изменения. Anomaly detection система показала высокую точность в обнаружении подозрительных запросов, в том числе тех, которые были специально предназначены для эвазии обнаружения. Эти результаты подтверждают эффективность нашей системы в обеспечении безопасности и доказательства владения. ## Значимость Наше решение имеет широкие применения в области безопасности беспроводных систем, особенно в ситуациях, где криптографическая аутентификация невозможна или нежелательна. Эта система обеспечивает устойчивую защиту от копирования и изменения моделей, а также предоставляет возможность проверить владение моделью. Это делает ее идеальной для использования в сетях Lorawan, где необходима высокая безопасность и прозрачность. Будущие исследования будут направлены на улучшение точности и устойчивости системы к различным видам атак.
Annotation:
Radio frequency fingerprint identification (RFFI) distinguishes wireless devices by the small variations in their analog circuits, avoiding heavy cryptographic authentication. While deep learning on spectrograms improves accuracy, models remain vulnerable to copying, tampering, and evasion. We present a stronger RFFI system combining watermarking for ownership proof and anomaly detection for spotting suspicious inputs. Using a ResNet-34 on log-Mel spectrograms, we embed three watermarks: a simpl...
ID: 2509.15170v1 cs.CR, cs.AI, eess.SP
Авторы:

Magnus Wiik Eckhoff, Peter Marius Flydal, Siem Peters, Martin Eian, Jonas Halvorsen, Vasileios Mavroeidis, Gudmund Grov

## Контекст В Security Operations Centres (SOCs) существует огромное количество сигналов о потенциальных угрозах, которые необходимо анализировать и контекстуализировать. Однако существуют проблемы с определением серьезности и приоритета действий, так как не все сигналы являются опасными. Это ведет к увеличению нагрузки на аналитиков и ухудшению качества их работы. Наличие эффективных способов контекстуализации сигналов может существенно улучшить способность аналитиков быстро распознать реальные угрозы и отсеять бесполезные сигналы. Наша мотивация заключается в создании метода, который позволяет эффективно агрегировать сигналы и отображать их в виде графов для более точного анализа. ## Метод Мы предлагаем графовую модель для контекстуализации сигналов в SOC. В этой модели каждый сигнал представляется в виде узла, а временные окна используются для связывания узлов в графы. Это позволяет группировать сигналы, которые могут быть связаны с одной атакой. Данные графы позволяют выделить более широкий контекст атаки, чем мог бы выделиться в случае работы с отдельными сигналами. Мы также используем Graph Matching Networks (GMNs) для сравнения новых сигналов с историческими данными об атаках, чтобы помочь аналитикам быстрее выявить шаги в атаке и риски. Эта архитектура позволяет использовать статистические методы для улучшения эффективности работы SOC. ## Результаты Мы проводили эксперимент с использованием данных из реальных SOC, где реализована наша модель. Мы использовали определенные временные окна для группировки сигналов и сравнили нашу модель с существующими методами. Результаты показали, что наша графовая модель позволяет более эффективно идентифицировать связанные сигналы и выделить шаги в атаке. Также мы провели эксперименты с GMNs, которые показали, что наш метод улучшает точность и скорость определения предыдущих атак. ## Значимость Наш метод может быть применен в различных SOC для повышения эффективности и принятия быстрых решений. Он предлагает способ эффективной обработки больших объемов данных, что может существенно уменьшить нагрузку на аналитиков. Благодаря методу GMNs, мы можем быстро выявить риски и уменьшить время отклика на новые угрозы. Это может привести к повышению безопасности систем и уменьшению времени отклика на риски в будущем. ## Выводы Мы предложили новую графовую модель для контекстуализации сигналов в SOC, которая улучшает распознавание шагов в атаке и обеспечивает быстрое определение рисков. Наши результаты показывают, что данный подход эффективен и может быть применен в сценариях реального времени. В
Annotation:
Interpreting the massive volume of security alerts is a significant challenge in Security Operations Centres (SOCs). Effective contextualisation is important, enabling quick distinction between genuine threats and benign activity to prioritise what needs further analysis. This paper proposes a graph-based approach to enhance alert contextualisation in a SOC by aggregating alerts into graph-based alert groups, where nodes represent alerts and edges denote relationships within defined time-windows...
ID: 2509.12923v2 cs.CR, cs.AI
Авторы:

Abhishek Goswami

## Контекст В последние годы становится все более очевидным, что автономные генеративные модели языка (LLM) могут решать сложные задачи, активно взаимодействуя с внешними системами через API. Однако эти агенты могут быть подвержены различным угрозам безопасности, таким как расширение привилегий, реплей-атаки и имитация. Одним из ключевых проблемов является неопределенность в моделях авторизации для таких систем, так как они часто опираются на статические подходы, не предусматривающие динамические изменения в работе агентов. Эта неопределенность может привести к нежелательным последствиям, включая несанкционированный доступ и даже утечки данных. В этом контексте возникает потребность в безопасной системе авторизации, которая могла бы обеспечить отделение идентитета агента и управление его доступом в реальном времени. ## Метод Агентический JWT (A-JWT) предлагает инновационный подход к авторизации, основанный на двух основных функциях: 1. **Хеширование идентитета агента**: A-JWT использует one-way checksum hash, получаемый из предложения (prompt), инструментов и конфигурации агента. Это позволяет защититься от несанкционированного доступа и случайного изменения конфигурации. 2. **Делегирование задач**: A-JWT включает в себя связанные утверждения о делегировании, которые позволяют проверить, какой агент имеет право на запуск конкретного действия. Это обеспечивает цепочную ответственность и возможность контроля за действиями в цепочке делегирования. Кроме того, A-JWT включает в себя подписи под проверку принадлежности (proof-of-possession), чтобы предотвратить реплей-атаки и внутрипроцессную имитацию. Устройство работы новой системы авторизации подразумевает использование легковесного клиентского слоя, который может самостоятельно проверять код во время выполнения, минтеть токены с интентом, отслеживать этапы рабочего процесса и вычислять ключи подписи. ## Результаты Проведенные эксперименты показали эффективность A-JWT в блокировке различных типов атак, таких как расширение привилегий, реплей-атаки и имитация. Для этого использовались специально созданные тестовые сценарии, включающие в себя различные угрозы, среди которых были включены запуск несанкционированных API-вызовов, масштабное действие агентов и другие виды угроз безопасности. Эксперименты проводились на коммерческом оборудовании, и результаты показали, что A-JWT добивается существенного улучшения безопасности без значительного изменения производительности. В частности, был доказан функциональный блокирование запросов, нарушающих установленные
Annotation:
Autonomous LLM agents can issue thousands of API calls per hour without human oversight. OAuth 2.0 assumes deterministic clients, but in agentic settings stochastic reasoning, prompt injection, or multi-agent orchestration can silently expand privileges. We introduce Agentic JWT (A-JWT), a dual-faceted intent token that binds each agent's action to verifiable user intent and, optionally, to a specific workflow step. A-JWT carries an agent's identity as a one-way checksum hash derived from its ...
ID: 2509.13597v1 cs.CR, cs.AI
Показано 311 - 320 из 470 записей