📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Architecting Resilient LLM Agents: A Guide to Secure Plan-then-Execute Implementations

2025-09-12

Авторы:

Ron F. Del Rosario, Klaudia Krawiecka, Christian Schroeder de Witt

## Контекст В последние годы искусственный интеллект (ИИ) стал одной из самых востребованных технологий, вносящих значительные вклады в развитие различных отраслей. Одним из наиболее заметных направлений является развитие говорящих моделей, таких как Large Language Models (LLM). Эти модели позволяют автоматизировать сложные, многошаговые задачи, но при этом создают новые проблемы в области безопасности и надежности. Одна из самых острых проблем в развитии LLM-агентов — это их уязвимость к атакам, таким как indirect prompt injection (IPI). Эти атаки могут привести к нежелательным последствиям, включая потерю контроля над агентом и даже утечку конфиденциальных данных. Поэтому, требуется разработка безопасных, надежных и прозрачных архитектур, которые могут стать основой для развития LLM-агентов. В этом контексте появляется идея Plan-then-Execute (P-t-E), которая предлагает разделить процессы планирования и исполнения задач. Этот подход может стать решением для некоторых проблем, связанных с безопасностью и надёжностью LLM-агентов. ## Метод В центре данного исследования лежит Plan-then-Execute (P-t-E) — архитектурный подход, который разделяет стратегическое планирование от технического исполнения. Этот метод позволяет повысить прозрачность и надёжность агента, так как каждое из этих процессов может быть отдельно проанализировано и подкорректировано. Работа агента основывается на двух основных компонентах: **Planner** и **Executor**. **Planner** отвечает за стратегическое планирование задач, а **Executor** — за их исполнение. Это разделение не только повышает прозрачность, но и позволяет лучше контролировать взаимодействие с системными ресурсами. Для реализации P-t-E была разработана специальная архитектура, в которой используются технологии, такие как stateful graphs (для поддержки перепланирования) и sandboxing-технологии (для защиты от внешних атак). Этот подход позволяет улучшить качество решений и защитить систему от потенциальных угроз. ## Результаты Для проверки эффективности P-t-E были проведены несколько экспериментов с использованием различных LLM-агентов. В ходе этих экспериментов было показано, что P-t-E предоставляет значительные преимущества по сравнению с другими архитектурами, такими как ReAct (Reason + Act). В частности, P-t-E позволил повысить качество решений, снизить затраты на вычисления и обеспечить более высокую надёжность. Одним из ключевых результатов является устойчивость P-t-E к indirect prompt injection атакам, которые являются одной из самых опасных угроз для LLM-агентов. ## Значимость Результаты исследований показывают, что P-t-E может быть применено в различных областях, где требуется надеж

Annotation:

As Large Language Model (LLM) agents become increasingly capable of automating complex, multi-step tasks, the need for robust, secure, and predictable architectural patterns is paramount. This paper provides a comprehensive guide to the ``Plan-then-Execute'' (P-t-E) pattern, an agentic design that separates strategic planning from tactical execution. We explore the foundational principles of P-t-E, detailing its core components - the Planner and the Executor - and its architectural advantages in...

ID: 2509.08646v1 cs.CR, cs.AI, cs.SY, eess.SY

arXiv PDF

📄 Paladin: Defending LLM-enabled Phishing Emails with a New Trigger-Tag Paradigm

2025-09-11

Авторы:

Yan Pang, Wenlong Meng, Xiaojing Liao, Tianhao Wang

## Контекст В последнее время значительное внимание уделяется использованию крупных языковых моделей (LLM) в различных приложениях, включая создание контента. Однако эти модели также могут быть использованы в киберпреступлениях, таких как ловля фишинговых писем. Недостаточность существующих подходов к детекции таких сообщений влечет за собой значительные ограничения в способности систем защиты от фишинга. Особенно затруднена детекция сообщений, генерируемых LLM, которые не содержат очевидных языковых ошибок или прочих явных признаков. Наша мотивация в том, чтобы разработать более эффективный подход к детекции таких писем, учитывая уникальные особенности их текстов. ## Метод Мы предлагаем метод Paladin, основывающийся на инструментировании LLM с помощью триггеров-тегов. Триггеры — это настраиваемые конструкции, встраиваемые в модель, которые гарантированно появятся в генерируемых текстах, если они относятся к фишингу. Теги — это уникальные, удобочитаемые разметки, которые помогают идентифицировать такие тексты. Мы предлагаем различные стратегии интеграции триггеров-тегов, включая одновременную инъекцию на разных уровнях модели. Это позволяет создавать детектируемые, но незаметные для пользователя тэги в тексте. ## Результаты Мы проводили эксперименты с использованием различных сценариев, включая обычные и специфичные для домена темы. Наши эксперименты показали, что Paladin достигает высокой точности детекции более чем 90%, даже при очень скрытых, незаметных для пользователя тегах. Мы сравнивали наш метод с тремя базовыми методами детекции, и выяснилось, что Paladin показывает значительно лучший результат во всех сценариях. Также мы провели тесты на целостность и скрытость, показав, что теги не влияют на качество создаваемого текста, но очень легко выявляются антифишинговой системой. ## Значимость Наш подход имеет широкую потенциальную заинтересованность в области безопасности Интернета, особенно в защите от фишинга. Он может быть применен в системах автоматического мониторинга и фильтрации электронной почты, включая облачные сервисы и корпоративные системы. Paladin не только повышает эффективность детекции, но и снижает нагрузку на ресурсы, благодаря тому, что тэги интегрированы непосредственно в процесс генерации текста. Это делает его более практичным и расширяет его потенциал в большом масштабе. ## Выводы Мы представили метод Paladin, который использует триггеры-теги для защиты от фишинговых сообщений, генерируемых LLM. Наши результаты показали высокую

Annotation:

With the rapid development of large language models, the potential threat of their malicious use, particularly in generating phishing content, is becoming increasingly prevalent. Leveraging the capabilities of LLMs, malicious users can synthesize phishing emails that are free from spelling mistakes and other easily detectable features. Furthermore, such models can generate topic-specific phishing messages, tailoring content to the target domain and increasing the likelihood of success. Detecti...

ID: 2509.07287v1 cs.CR, cs.AI

arXiv PDF

📄 zkUnlearner: A Zero-Knowledge Framework for Verifiable Unlearning with Multi-Granularity and Forgery-Resistance

2025-09-11

Авторы:

Nan Wang, Nan Wu, Xiangyu Hui, Jiafan Wang, Xin Yuan

#### Контекст С ростом спроса на соблюдение права на удаление личных данных (право на "забытьство") возрастает необходимость в верифицируемом машинном "учтеринге". Это означает, что системы должны доказывать, что они удалили конкретные данные, чтобы обеспечить прозрачность и ответственность. Однако существуют значительные сложности в эффективности и безопасности таких процессов. Наша мотивация заключается в разработке системы, которая может доказывать удаление данных на высоком уровне конфиденциальности и защищаться от ложных утверждений о том, что данные были удалены. #### Метод Мы предлагаем **zkUnlearner** — первую систему, основанную на нулевых знаниях (zero-knowledge), для верификации машинного "учтеринга". Она основывается на новой модели вычислений, включающей метод **бит-маскирования**, который позволяет выполнять **селективное удаление** данных — на уровне сэмплов, признаков или классов. Модель может быть переведена в арифметические схемы, что обеспечивает ее поддержку в различных системах нулевых знаний. Мы также предлагаем стратегии для **защиты от прямых фальсификаций**, когда злоумышленники могут подделать данные о том, что удаление произошло, но на самом деле оно не выполнено. Наш подход эффективен и при этом очень безопасный. #### Результаты Мы провели эксперименты с использованием предоставленных данных, в том числе с имитацией различных сценариев удаления данных. Наши результаты показывают, что **zkUnlearner** успешно доказывает удаление данных на разных уровнях гранулярности, включая признаки и классы, без потери производительности. Также мы протестировали систему на **защите от фальсификаций**, показав, что она эффективно отвечает на современные атаки. Эксперименты подтвердили высокую эффективность и практичность нашего подхода. #### Значимость Наш подход может быть применен в сценариях, где требуется высокая безопасность и прозрачность, например, в системах здравоохранения, финансовых услугах и образовательных платформах. **zkUnlearner** обеспечивает не только верификацию удаления данных, но и защиту от ложных утверждений, что делает его важной компонентой для соблюдения законодательства о защите данных. Мы также отмечаем, что наш подход может быть расширен для работы с новыми типами данных и задачами в области машинного обучения. #### Выводы Мы впервые представили **zkUnlearner** — фреймворк, который эффективно решает проблемы верификации удаления данных на разных уровнях гранулярности и защищается от фальсификаций. Наши результаты открывают новые возможности для безопасного и прозрачного машинного "учтеринга". В будущем мы

Annotation:

As the demand for exercising the "right to be forgotten" grows, the need for verifiable machine unlearning has become increasingly evident to ensure both transparency and accountability. We present {\em zkUnlearner}, the first zero-knowledge framework for verifiable machine unlearning, specifically designed to support {\em multi-granularity} and {\em forgery-resistance}. First, we propose a general computational model that employs a {\em bit-masking} technique to enable the {\em selectivity} o...

ID: 2509.07290v1 cs.CR, cs.AI

arXiv PDF

📄 ImportSnare: Directed "Code Manual" Hijacking in Retrieval-Augmented Code Generation

2025-09-11

Авторы:

Kai Ye, Liangcai Su, Chenxiong Qian

## Контекст Область исследования, связанная с ростом возможностей Large Language Models (LLMs), стала ключевой в современном программировании. Одним из важных элементов этой области является Retrieval-Augmented Generation (RAG), который использует внешние источники, такие как кодные мануалы, для улучшения точности и безопасности генерируемого кода. Тем не менее, эти новые возможности сопровождаются новыми угрозами. В частности, появилась угроза под названием "hijacking" (захват), когда злоумышленники вводят внешние зависимости, которые могут привести к потере контроля над программой. Эта проблема является отражением широкого риска в системах поставок программного обеспечения, который может быть использован для уязвимости. В данном исследовании мы фокусируемся на том, как эта угроза возникает в контексте RAG. Исследование направлено на понимание, как злоумышленники могут подделать внешние зависимости, используемые при процессе генерации кода, и как это может повлиять на работу программистов, которые полагаются на такие системы. ## Метод Мы предлагаем **ImportSnare**, новую атакующую систему, которая основывается на двух основных аспектах. Во-первых, **Position-aware beam search** используется для оптимизации поиска ранжированных документов, чтобы убедиться, что злоумышленник может увеличить вероятность того, что злонамеренные зависимости появятся в выдаче результатов поиска. Во-вторых, **Multilingual inductive suggestions** позволяют злоумышленнику манипулировать LLMs, чтобы эти модели предлагали пользователю установить внешние зависимости, которые могут быть вредоносными. Эта система испытана на трех языках программирования: Python, Rust и JavaScript, и она доказала свою эффективность в том, что может обмануть LLM и привести к установке вредоносных зависимостей. ## Результаты В ходе экспериментов мы проверили эффективность ImportSnare на различных библиотеках, таких как matplotlib и seaborn. Результаты показали, что злоумышленник может заставить LLM рекомендовать вредоносные зависимости с достаточно высокой вероятностью (выше 50% для популярных библиотек). Даже при очень низких процентах внесения вредоносных изменений в документацию (только 0.01%), ImportSnare по-прежнему может выполнить свою задачу. Это означает, что она может быть использована для атак, даже если документация не является целью каких-либо специфичных атак. ## Значимость Выявленные уязвимости имеют критическое значение для развития безопасных систем программирования. Основные затронутые области: - **Code Generation**: Риск внедрения вредоносных зависимостей в генерируемый код; - **Supply Chain Security**: Уязвимости в системах управления пакетами и зависимостями; - **Developer Trust**: Убеждение разработчиков в правильности ре

Annotation:

Code generation has emerged as a pivotal capability of Large Language Models(LLMs), revolutionizing development efficiency for programmers of all skill levels. However, the complexity of data structures and algorithmic logic often results in functional deficiencies and security vulnerabilities in generated code, reducing it to a prototype requiring extensive manual debugging. While Retrieval-Augmented Generation (RAG) can enhance correctness and security by leveraging external code manuals, it s...

ID: 2509.07941v1 cs.CR, cs.AI

arXiv PDF

📄 Cross-Service Threat Intelligence in LLM Services using Privacy-Preserving Fingerprints

2025-09-10

Авторы:

Waris Gill, Natalie Isak, Matthew Dressman

#### Контекст С появлением широкоизвестных языковых моделей (LLM) в энтерпрайз-системах возникла новая критическая проблема безопасности — распространение проблемы "промусолка инъекции запросов" (prompt injection attacks). Эти атаки могут повторяться в нескольких сервисах, которые обрабатывают пользовательские запросы, но существуют жесткие нормативные ограничения на обмен информацией об атаках. Регулярные требования препятствуют обмену жалобами и данными о проблемах между сервисами, что приводит к тому, что одни сервисы могут недостаточно быстро реагировать на подозрительные активности. Многие организации не могут полноценно оценить угрозы, так как не могут получить доступ к анализу данных из других сервисов. Однако, если бы была возможность безопасного обмена угрозными моделями взаимно полезной информацией, без разглашения конфиденциальных данных, это было бы ключевым решением для повышения безопасности. #### Метод Мы предлагаем BinaryShield, новую систему, которая позволяет безопасно обмениваться "угрозными отпечатками" (threat fingerprints) между LLM-сервисами. Метод шифрует данные, используя технологии, которые позволяют избежать раскрытия конфиденциальных данных в ходе обмена. Базовая идея заключается в том, чтобы превратить подозрительные запросы в некоторую форму уникальных "отпечатков", которые в то же время могут быть использованы для поиска подозрительных моделей, но не выдают информации, которая может подвергнуться неправомерному использованию. Основные этапы методики включают (1) удаление личных данных (PII redaction), (2) преобразование запросов в семантические ин Eмбеддинги (semantic embedding), (3) кодирование данных в бинарный формат (binary quantization), и (4) применение механизма случайных ответов (randomized response) для гарантии конфиденциальности. #### Результаты Мы провели ряд экспериментов для проверки эффективности BinaryShield. Использованы данные, содержащие подозрительные запросы, которые были сравнивались с другими данными для поиска подозрительных моделей. Метод BinaryShield показал высокую точность — F1-меру достигла 0.94, что значительно выше, чем у SimHash (0.77), стандартного метода приватности. Одновременно, BinaryShield позволил сократить требуемое место на хранения данных в 64 раза и увеличить скорость поиска подозрительных моделей в 38 раз по сравнению с традиционным подходом, основанным на технологии dense embeddings. #### Значимость BinaryShield демонстрирует значительный потенциал в обеспечении безопасности в сфере LLM-сервисов. Он предоставляет возможность для безопасного обмена информацией об угрозах между различными сервисами, даже если они работают в разных регуляторных сферах.

Annotation:

The widespread deployment of LLMs across enterprise services has created a critical security blind spot. Organizations operate multiple LLM services handling billions of queries daily, yet regulatory compliance boundaries prevent these services from sharing threat intelligence about prompt injection attacks, the top security risk for LLMs. When an attack is detected in one service, the same threat may persist undetected in others for months, as privacy regulations prohibit sharing user prompts a...

ID: 2509.05608v1 cs.CR, cs.AI, cs.CL, cs.LG

arXiv PDF

📄 Tell-Tale Watermarks for Explanatory Reasoning in Synthetic Media Forensics

2025-09-10

Авторы:

Ching-Chun Chang, Isao Echizen

#### Контекст Современный прогресс в области искусственного интеллекта привел к развитию синтетического мультимедиа, которое часто вызывает трудности в различении реальности от фальши. Этот тренд опрокидывает границы между реальным и цифровым миром, приводя к возрастающему количеству недостоверной информации, которая способствует распространению аффективных инфекций в цифровом пространстве. Это затрудняет обеспечение надежности информации в цифровых средах, поскольку синтетические медиа могут быть использованы для вредоносных целей, включая манипуляцию публичным мнением. Традиционные методы цифрового расследования сталкиваются с ограничениями при анализе семантических изменений, фотометрических пересчётов и геометрических преобразований, которые могут быть внесены в изображения. Этот кризис требует развития эффективных методов для восстановления цепочки создания синтетических медиа и раскрытия затенённых мотивов. #### Метод В этом исследовании предлагается подход, основанный на tell-tale watermarking system, который является интеллектуальной системой, призванной обнаруживать и анализировать преобразования в синтетических медиа. Эта система работает путём внедрения визуальных индикаторов, которые модифицируются в соответствии с изменениями в изображении. Такие watermarks ни в коей мере не предназначены для скрытия информации, а скорее для дополнительного обогащения её. Они отслеживаются и анализируются для восстановления жизненного цикла синтетических медиа. Выполняется принципиальный анализ свойств watermarks, включая их устойчивость к изменениям, трассировку трансформаций и возможность интерпретировать их в контексте исследования. #### Результаты Результаты достижений этого подхода были подтверждены экспериментально. Использовались синтетические данные, созданные с использованием различных генеративных моделей и редактирующих систем. Исследования показали, что tell-tale watermarks могут стабильно отражать изменения, которые происходят в изображении в результате любых трансформаций. Также было проанализировано устойчивость watermarks к различным формам злоумышленничества, включая сильные и нехиткие методы manipulability. Такое тестирование подтвердило высокую ценность watermarks в восстановлении цепочки создания и предоставлении ценной информации для цифровых расследований. #### Значимость Предложенный подход имеет широкие перспективы в области cyber forensics и в сфере борьбы с fake news. Он может быть применён для отслеживания изменений в изображениях, восстановления цепочки создания и нахождения подтверждений законност

Annotation:

The rise of synthetic media has blurred the boundary between reality and fabrication under the evolving power of artificial intelligence, fueling an infodemic that erodes public trust in cyberspace. For digital imagery, a multitude of editing applications further complicates the forensic analysis, including semantic edits that alter content, photometric adjustments that recalibrate colour characteristics, and geometric projections that reshape viewpoints. Collectively, these transformations mani...

ID: 2509.05753v1 cs.CR, cs.AI, cs.CV

arXiv PDF

📄 Signal-Based Malware Classification Using 1D CNNs

2025-09-10

Авторы:

Jack Wilkie, Hanan Hindy, Ivan Andonovic, Christos Tachtatzis, Robert Atkinson

## Контекст Современные угрозы в сфере кибербезопасности, такие как малвирь, требуют эффективных методов идентификации и классификации. Одним из ключевых вызовов является обход традиционных методов статического анализа, которые могут быть обойдены с помощью различных оболочек и обфускации. Динамический анализ, хотя и показывает высокую точность, требует больших ресурсов, что не допускает массового развертывания. Ранее проводились исследования, применяющие методы компьютерного зрения к 2D-изображениям, созданным из бинарных файлов. Однако этот подход приводит к значительной потере информации, включая зашумление и введение зависимостей между пикселями, которые не существуют в начальных данных. ## Метод В данном исследовании предлагается новый подход к классификации малвирьа, основанный на преобразовании бинарных файлов в одномерные сигналы. Этот метод устраняет необходимость использования 2D-изображений, сохраняя большую часть оригинальной информации. Бинарные файлы конвертируются в 1D-сигналы без ненужных преобразований, используя формат вещественных чисел, что позволяет избежать зашумления и сохранить точность. Для классификации были использованы 1D-конvolutional neural networks (1D-CNNs), адаптированные из 2D-архитектур, таких как ResNet, с добавлением squeeze-and-excitation слоев для улучшения осознанности и эффективности. ## Результаты Использовав MalNet dataset, были проведены эксперименты для классификации на уровнях бинарный, тип и семейство. 1D-CNNs показали высокую точность, достигнув F1-метрик 0.874, 0.503 и 0.507 соответственно. Эти результаты опережают предыдущие решения, основанные на 2D-изображениях. Особенно выдающимися были результаты при классификации на уровне бинарный и тип, где 1D-подход показал значительное превосходство. ## Значимость Предложенный подход имеет широкие возможности применения в сфере безопасности информационных технологий. Он позволяет более эффективно обнаруживать и классифицировать новые виды малвирьа, даже с использованием обфускации. Благодаря использованию 1D-сигналов, данный метод экономит ресурсы и повышает точность. Его можно применять в системах мониторинга, антивирусной защите и анализа бинарных файлов. ## Выводы Результаты этого исследования указывают на то, что использование 1D-сигналов для классификации малвирьа является более эффективным, чем традиционные 2D-подходы. Будущие исследования будут сфокусированы на расширении этой техники для работы с более сложными данными и улучш

Annotation:

Malware classification is a contemporary and ongoing challenge in cyber-security: modern obfuscation techniques are able to evade traditional static analysis, while dynamic analysis is too resource intensive to be deployed at a large scale. One prominent line of research addresses these limitations by converting malware binaries into 2D images by heuristically reshaping them into a 2D grid before resizing using Lanczos resampling. These images can then be classified based on their textural infor...

ID: 2509.06548v2 cs.CR, cs.AI, cs.CV, cs.LG, I.2.6; K.6.5

arXiv PDF

📄 AttestLLM: Efficient Attestation Framework for Billion-scale On-device LLMs

2025-09-10

Авторы:

Ruisi Zhang, Yifei Zhao, Neusha Javidnia, Mengxin Zheng, Farinaz Koushanfar

## Контекст В последние годы наблюдается быстрое развитие локальных больших языковых моделей (LLM), таких как Apple своего девайса Intelligence. Эти модели позволяют уменьшить зависимость от сети, обеспечить большую конфиденциальность и повысить отзывчивость. Однако с ростом широкого применения таких моделей возникает критическая проблема — обеспечение их легитимности и защита от несанкционированных изменений. Недостаточность существующих методов аттестации, которые не могут эффективно работать с миллиардами параметров LLMs, создает нужду в разработке новых, более эффективных решений. Целью данной работы является разработка простого, эффективного и надежного аттестационного фреймворка AttestLLM, который обеспечивает защиту хардварного интеллектуального пользования (IP) верификацией только легитимных моделей на устройствах. ## Метод AttestLLM использует сочетание алгоритмических, программных и аппаратных решений для внедрения надежных меток водо标а на дистрибуции активаций в больших моделях языкового моделирования. Этот фреймворк интегрируется в Trusted Execution Environment (TEE) для обеспечения безопасности и эффективности проверки. Основной идеей является технология watermarking, которая заносит в загружаемые векторы активаций специальные, незаметные для пользователя, отметки. Эти отметки позволяют одновременно проверить легитимность модели и возможность ее выполнения на определенном устройстве. Для эффективности аттестационного протокола используется оптимизация в рамках TEE, чтобы минимизировать влияние проверки на производительность работы модели. Таким образом, AttestLLM обеспечивает надежную защиту IP в условиях масштабирования без существенных снижений производительности. ## Результаты Для подтверждения эффективности AttestLLM проводились тесты на моделях Llama, Qwen и Phi с различными наборами данных. Результаты показали, что фреймворк достиг высокой надежности в проверке легитимности моделей. Он обеспечил отличные результаты в скорости аттестации (минимальное влияние на производительность) и точность в определении нелегитимных моделей. Были проведены эксперименты, показавшие, что AttestLLM надежно обнаруживает замену модели и попытки ее фальсификации. Также были проведены сравнительные эксперименты, подтвердив, что AttestLLM превосходит существующие методы в скорости и эффективности проверки. ## Значимость AttestLLM представляет собой новый подход к защите хардварных решений для больших моделей языкового моделирования. Его важность заключается в том, что он позволяет эффективно проверять легитимность моделей в условиях масштабирования, с минимальным влиянием на производительность. Это решение может бы

Annotation:

As on-device LLMs(e.g., Apple on-device Intelligence) are widely adopted to reduce network dependency, improve privacy, and enhance responsiveness, verifying the legitimacy of models running on local devices becomes critical. Existing attestation techniques are not suitable for billion-parameter Large Language Models (LLMs), struggling to remain both time- and memory-efficient while addressing emerging threats in the LLM era. In this paper, we present AttestLLM, the first-of-its-kind attestation...

ID: 2509.06326v1 cs.CR, cs.AI

arXiv PDF

📄 Signal-Based Malware Classification Using 1D CNNs

2025-09-10

Авторы:

Jack Wilkie, Hanan Hindy, Ivan Andonovic, Christos Tachtatzis, Robert Atkinson

## Контекст Modern malware detection faces significant challenges due to the use of advanced obfuscation techniques, which can bypass traditional static analysis methods. Dynamic analysis, while effective, is resource-intensive and impractical for large-scale deployment. To address these issues, existing research transforms malware binaries into 2D images by reshaping their data into a grid format and resizing it using Lanczos resampling. These images are then analyzed using computer vision techniques, enabling detection of obfuscated malware more effectively than static analysis. However, this approach introduces significant information loss due to quantization noise and the artificial introduction of 2D dependencies, which do not exist in the original binary data. This limitation reduces the classification performance of downstream models. This study proposes a novel approach that converts malware binaries into 1D signals, eliminating the need for heuristic reshaping and avoiding quantization noise by storing data in a floating-point format. ## Метод The proposed methodology focuses on converting malware binaries into 1D signals, leveraging their inherent structure and minimizing information loss. Unlike traditional 2D image-based approaches, this method preserves the original signal's integrity by avoiding heuristic reshaping and quantization noise. The signals are processed using a bespoke 1D convolutional neural network (1D CNN) based on the ResNet architecture. The network incorporates squeeze-and-excitation layers to enhance feature representation and classification accuracy. The model was evaluated on the MalNet dataset, a comprehensive dataset for malware classification, to assess its performance across binary, type, and family-level classification tasks. This approach represents a significant departure from conventional methods, offering improved classification accuracy and robustness. ## Результаты The experiments demonstrated the efficacy of the 1D signal-based approach in malware classification. The bespoke 1D CNN achieved state-of-the-art performance on the MalNet dataset, with F1 scores of 0.874 for binary classification, 0.503 for type-level classification, and 0.507 for family-level classification. These results outperform existing 2D CNN models when applied to the same dataset, highlighting the superiority of the proposed signal-based methodology. The floating-point representation of signals eliminates quantization noise, ensuring that the models receive more accurate and complete data for analysis. This improvement in signal fidelity directly translates to better classification performance, paving the way for more effective malware detection systems. ## Значимость The proposed 1D signal-based approach offers several advantages over traditional 2D image-based methods. By avoiding heuristic reshaping and quantization noise, it preserves the integrity of the original malware data, leading to more accurate classification. The method is computationally efficient, making it suitable for large-scale deployment in real-world cybersecurity systems. Its applications extend beyond malware classification, as the signal-based modality can be applied to other domains requiring robust signal processing. The potential impact of this work includes enhanced malware detection capabilities, improved system security, and reduced resource consumption in large-scale deployment scenarios. ## Выводы The study demonstrates the effectiveness of converting malware binaries into 1D signals for classification using 1D CNNs. The bespoke 1D CNN architecture, based on ResNet and squeeze-and-excitation layers, achieves state-of-the-art performance on the MalNet dataset, outperforming existing 2D CNN models. This approach eliminates the limitations of traditional 2D image-based methods, offering superior classification accuracy and robustness. Future research directions include exploring advanced signal processing techniques to further enhance signal fidelity and investigating the applicability of the proposed methodology to other cybersecurity and signal processing tasks.

Annotation:

ID: 2509.06548v1 cs.CR, cs.AI, cs.CV, cs.LG, I.2.6; K.6.5

arXiv PDF

📄 An Ethically Grounded LLM-Based Approach to Insider Threat Synthesis and Detection

2025-09-10

Авторы:

Haywood Gelman, John D. Hastings, David Kenley

#### Контекст Обнаружение инсайдерских угроз является важной проблемой для организаций, так как эти угрозы часто основываются на технических и поведенческих элементах, которые сложно выявить. Достаточно большой объем исследовательских работ посвящен данной проблеме с учетом технических, психологических и образовательных аспектов. Однако многие из этих исследований ограничены данными, доступными только для частичного использования, что приводит к затруднениям в развитии моделей, способных адаптироваться к изменениям. Данное исследование предлагает новую, этически обоснованную модель, основанную на большом языковом модели (LLM) Claude Sonnet 3.7. Эта модель динамически синтезирует системные журналы (syslog), включающие индикаторы инсайдерских угроз. Эти журналы имитируют реальные распределения данных, при этом внутри них инсайдерские угрозы представлены в небольшом проценте (1%). #### Метод Методология исследования основывается на технологии Claude Sonnet 3.7, которая применяется для синтеза системных журналов с индикаторами инсайдерских угроз. Для синтеза используются данные, оптимизированные для низкой частоты встречаемости угроз (1%). Эти синтетические данные позволяют создавать модели, тестируемые в условиях реальности. Для оценки эффективности сравнивались две модели: Claude Sonnet 3.7 и GPT-4o. Оба системы проанализировали синтетические системные журналы с инсайдерскими угрозами, а результаты были оценены с помощью метрик, таких как прецизион (precision), реколл (recall), MCC (Matthews Correlation Coefficient) и ROC AUC (Receiver Operating Characteristic Area Under Curve). #### Результаты Эксперименты показали, что Claude Sonnet 3.7 примерно в 2 раза превосходит GPT-4o по метрикам, таким как precision и MCC. Это связано с более точным выявлением угроз и меньшим количеством ложных срабатываний (false alarms). GPT-4o, в свою очередь, показала лучший recall, но была менее точной в определении положительных случаев. Логаритмический график ROC показал, что Sonnet 3.7 обеспечивает более высокую точность в обнаружении угроз, особенно при небольшом количестве положительных данных. #### Значимость Эти результаты открывают новые возможности для использования глубоких языковых моделей в создании синтетических данных и обнаружении инсайдерских угроз. Это может быть применено в различных сферах, где необходимо мониторинг безопасности и выявление подозрительных действий. Кроме того, решение имеет потенциал для улучшения обнаружения злоумышленников внутри организации, уменьшения ложных срабатываний и повышения достоверности моделей. #### Выводы Результаты экспериментов показывают, что Claude Sonnet 3.7 является эффектив

Annotation:

Insider threats are a growing organizational problem due to the complexity of identifying their technical and behavioral elements. A large research body is dedicated to the study of insider threats from technological, psychological, and educational perspectives. However, research in this domain has been generally dependent on datasets that are static and limited access which restricts the development of adaptive detection models. This study introduces a novel, ethically grounded approach that us...

ID: 2509.06920v1 cs.CR, cs.AI, cs.CL, cs.CY, C.2.0; I.2.7; K.4.1; H.3.3

arXiv PDF

Показано 351 - 360 из 470 записей