📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 SELF: A Robust Singular Value and Eigenvalue Approach for LLM Fingerprinting

2025-12-05

Авторы:

Hanxiu Zhang, Yue Zheng

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

The protection of Intellectual Property (IP) in Large Language Models (LLMs) represents a critical challenge in contemporary AI research. While fingerprinting techniques have emerged as a fundamental mechanism for detecting unauthorized model usage, existing methods -- whether behavior-based or structural -- suffer from vulnerabilities such as false claim attacks or susceptible to weight manipulations. To overcome these limitations, we propose SELF, a novel intrinsic weight-based fingerprinting ...

ID: 2512.03620v1 cs.CR, cs.AI, cs.CL, cs.LG

arXiv PDF

📄 AutoMalDesc: Large-Scale Script Analysis for Cyber Threat Research

2025-11-19

Авторы:

Alexandru-Mihai Apostu, Andrei Preda, Alexandra Daniela Damir, Diana Bolocan, Radu Tudor Ionescu, Ioana Croitoru, Mihaela Gaman

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Generating thorough natural language explanations for threat detections remains an open problem in cybersecurity research, despite significant advances in automated malware detection systems. In this work, we present AutoMalDesc, an automated static analysis summarization framework that, following initial training on a small set of expert-curated examples, operates independently at scale. This approach leverages an iterative self-paced learning pipeline to progressively enhance output quality th...

ID: 2511.13333v1 cs.CR, cs.AI, cs.CL, cs.LG

arXiv PDF

📄 PISanitizer: Preventing Prompt Injection to Long-Context LLMs via Prompt Sanitization

2025-11-17

Авторы:

Runpeng Geng, Yanting Wang, Chenlong Yin, Minhao Cheng, Ying Chen, Jinyuan Jia

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Long context LLMs are vulnerable to prompt injection, where an attacker can inject an instruction in a long context to induce an LLM to generate an attacker-desired output. Existing prompt injection defenses are designed for short contexts. When extended to long-context scenarios, they have limited effectiveness. The reason is that an injected instruction constitutes only a very small portion of a long context, making the defense very challenging. In this work, we propose PISanitizer, which firs...

ID: 2511.10720v1 cs.CR, cs.AI, cs.CL, cs.LG

arXiv PDF

📄 SALT: Steering Activations towards Leakage-free Thinking in Chain of Thought

2025-11-15

Авторы:

Shourya Batra, Pierce Tillman, Samarth Gaggar, Shashank Kesineni, Kevin Zhu, Sunishchal Dev, Ashwinee Panda, Vasu Sharma, Maheep Chaudhary

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

As Large Language Models (LLMs) evolve into personal assistants with access to sensitive user data, they face a critical privacy challenge: while prior work has addressed output-level privacy, recent findings reveal that LLMs often leak private information through their internal reasoning processes, violating contextual privacy expectations. These leaky thoughts occur when models inadvertently expose sensitive details in their reasoning traces, even when final outputs appear safe. The challenge ...

ID: 2511.07772v1 cs.CR, cs.AI, cs.CL, cs.LG

arXiv PDF

📄 Jailbreak Mimicry: Automated Discovery of Narrative-Based Jailbreaks for Large Language Models

2025-10-29

Авторы:

Pavlos Ntais

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Large language models (LLMs) remain vulnerable to sophisticated prompt engineering attacks that exploit contextual framing to bypass safety mechanisms, posing significant risks in cybersecurity applications. We introduce Jailbreak Mimicry, a systematic methodology for training compact attacker models to automatically generate narrative-based jailbreak prompts in a one-shot manner. Our approach transforms adversarial prompt discovery from manual craftsmanship into a reproducible scientific proces...

ID: 2510.22085v1 cs.CR, cs.AI, cs.CL, cs.LG, I.2.7; I.2.0; K.6.5

arXiv PDF

📄 PLAGUE: Plug-and-play framework for Lifelong Adaptive Generation of Multi-turn Exploits

2025-10-23

Авторы:

Neeladri Bhuiya, Madhav Aggarwal, Diptanshu Purwar

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Large Language Models (LLMs) are improving at an exceptional rate. With the advent of agentic workflows, multi-turn dialogue has become the de facto mode of interaction with LLMs for completing long and complex tasks. While LLM capabilities continue to improve, they remain increasingly susceptible to jailbreaking, especially in multi-turn scenarios where harmful intent can be subtly injected across the conversation to produce nefarious outcomes. While single-turn attacks have been extensively ex...

ID: 2510.17947v2 cs.CR, cs.AI, cs.CL, cs.LG, cs.MA

arXiv PDF

📄 Position: Privacy Is Not Just Memorization!

2025-10-04

Авторы:

Niloofar Mireshghallah, Tianshi Li

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

The discourse on privacy risks in Large Language Models (LLMs) has disproportionately focused on verbatim memorization of training data, while a constellation of more immediate and scalable privacy threats remain underexplored. This position paper argues that the privacy landscape of LLM systems extends far beyond training data extraction, encompassing risks from data collection practices, inference-time context leakage, autonomous agent capabilities, and the democratization of surveillance thro...

ID: 2510.01645v1 cs.CR, cs.AI, cs.CL, cs.LG

arXiv PDF

📄 STAC: When Innocent Tools Form Dangerous Chains to Jailbreak LLM Agents

2025-10-02

Авторы:

Jing-Jing Li, Jianfeng He, Chao Shang, Devang Kulshreshtha, Xun Xian, Yi Zhang, Hang Su, Sandesh Swamy, Yanjun Qi

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

As LLMs advance into autonomous agents with tool-use capabilities, they introduce security challenges that extend beyond traditional content-based LLM safety concerns. This paper introduces Sequential Tool Attack Chaining (STAC), a novel multi-turn attack framework that exploits agent tool use. STAC chains together tool calls that each appear harmless in isolation but, when combined, collectively enable harmful operations that only become apparent at the final execution step. We apply our framew...

ID: 2509.25624v1 cs.CR, cs.AI, cs.CL, cs.LG

arXiv PDF

📄 Every Character Counts: From Vulnerability to Defense in Phishing Detection

2025-09-26

Авторы:

Maria Chiper, Radu Tudor Ionescu

## Контекст Phishing — это подмена авторитетного источника со склонностью к мошенничеству, направленная на извлечение чувствительных данных от пользователей. Несмотря на развитие технологий, phishing-атаки остаются одной из самых активных угроз в интернет-безопасности. Они направлены как на физические, так и на юридические лица. Данное исследование фокусируется на разработке эффективных методов по детектированию phishing-атак. Основная проблема заключается в том, что существующие методы часто недостаточно точны и не обладают транспарентностью, что снижает их надежность. Это компрометирует их применение в реальных ситуациях. Мотивация заключается в разработке моделей, которые обеспечат высокую точность, гибкость и понятность решений. ## Метод Для детектирования phishing-атак используются модели, оперирующие на уровне символов (character-level). Три модели, использованные в исследовании, включают: CharCNN (Convolutional Neural Network), CharGRU (Gated Recurrent Unit) и CharBiLSTM (Bidirectional Long Short-Term Memory). Модели адаптированы для анализа текста на уровне символов. Использованная для обучения и тестирования датасет состоит из электронных писем, собранных из различных источников. Эталонные модели сравниваются в трех сценариях: (i) стандартном обучении и тестировании, (ii) обучении стандартными данными и тестировании с адверсарными атаками и (iii) обучении с адверсарными примерами и тестировании. Для оценки вычислительной эффективности используется строгая ограниченная модель, которая может быть реализована в виде браузерного расширения. ## Результаты Для стандартного сценария все модели показали высокую точность, но CharGRU (Char-GRU) проявил себя как самая удачная модель в последних двух сценариях. Все модели оказались восприимчивы к адверсарным атакам, но повышение результатов при добавлении адверсарного обучения позволило значительно улучшить их устойчивость. Для улучшения понимания решений моделей, внедрена техника Gradient-weighted Class Activation Mapping (Grad-CAM), позволяющая визуализировать вклад каждого символа в вывод модели. Эта возможность дает пользователям большее уверенность в работе моделей. ## Значимость Результаты имеют большое значение для различных областей, включая безопасность интернета, технологии мониторинга и автоматического анализа электронной почты. Детальный подробный анализ позволяет понять, какие аспекты каждого письма влияют на вывод моделей. Этот подход может быть применен в браузерных расширениях, предотвращающих phishing-атаки, и дает возможность лучшего понимания стратегий атак. Этот подход повышает потенциал для создания более надежной системы безопасности для пользователей

Annotation:

Phishing attacks targeting both organizations and individuals are becoming an increasingly significant threat as technology advances. Current automatic detection methods often lack explainability and robustness in detecting new phishing attacks. In this work, we investigate the effectiveness of character-level deep learning models for phishing detection, which can provide both robustness and interpretability. We evaluate three neural architectures adapted to operate at the character level, namel...

ID: 2509.20589v1 cs.CR, cs.AI, cs.CL, cs.LG

arXiv PDF

📄 FedMentor: Domain-Aware Differential Privacy for Heterogeneous Federated LLMs in Mental Health

2025-09-20

Авторы:

Nobin Sarwar, Shubhashis Roy Dipta

#################################### ## Контекст #################################### Федеративное обучение с помощью больших языковых моделей (LLM) широко применяется в секторе здравоохранения и других сильно закрытых областях, где важно сохранить конфиденциальность данных. Однако существуют значительные проблемы: стандартные методы не достаточно эффективно сбалансированы между конфиденциальностью, безопасностью и качеством модели. Например, применение федеративного адаптированного обучения в области клинической психологии требует учета того, что данные отдельных клиентов могут отличаться по характеру и чувствительности, что сказывается на точности модели и ее безопасности. Мы предлагаем FedMentor, новую федеративную модель, которая учитывает эти аспекты и предлагает решение для применения в различных секторах. #################################### ## Метод #################################### FedMentor использует Low-Rank Adaptation (LoRA) для адаптации модели к локальным данным и добавляет встроенный механизм для обеспечения domain-aware Differential Privacy (DP). Каждый клиент (клинический доктор, терапевт или другой участник федерации) применяет отдельный квантом шума в зависимости от чувствительности своих данных. Шум настраивается автоматически, чтобы держаться в пределах заданного приватности бюджета. Кроме того, FedMentor включает адаптивный коррекционный механизм, который может уменьшать шум, когда это необходимо для повышения модели производительности. Оптимизированная архитектура позволяет FedMentor работать на ресурсах клиентов с ограниченным процессорным и памятным объемом, таких как графические ускорители (GPU). #################################### ## Результаты #################################### Мы провели эксперименты на трех различных ментально-здравоохранных датасетах, сравнив FedMentor с другими методами, включая стандартный Federated Learning и модели без приватности. FedMentor показал значительное увеличение "безопасных" выводов (без токсичности и нежелательных слов), повысив "безопасный" рейтинг на 3% в сравнении с базовым Federated Learning. Также FedMentor сохранил высокий уровень точности модели, с BERTScore F1 и ROUGE-L в пределах 0,5% от централизованной модели, а также близко к ней в общем центральном подходе. Особенно значимо, что FedMentor поддерживает эффективность на больших моделях, таких как те с 1.7 миллиардами параметров, работающих на подключенных клиентах, с минимальным объемом обмена данными в каждой итерации. #################################### ## Значимость #################################### FedMentor может применяться в различных областях, где важно обеспечить конфиденциальность (например, медицина, психология, финансы). Он оптимизирует настройку модели на локальных данных, чтобы минимизировать риск выдачи нежелательных результатов, таких как язвительность или неточность. Это позволяет повысить безопасность и работу моде

Annotation:

Privacy-preserving adaptation of Large Language Models (LLMs) in sensitive domains (e.g., mental health) requires balancing strict confidentiality with model utility and safety. We propose FedMentor, a federated fine-tuning framework that integrates Low-Rank Adaptation (LoRA) and domain-aware Differential Privacy (DP) to meet per-domain privacy budgets while maintaining performance. Each client (domain) applies a custom DP noise scale proportional to its data sensitivity, and the server adaptive...

ID: 2509.14275v1 cs.CR, cs.AI, cs.CL, cs.LG

arXiv PDF

Показано 1 - 10 из 12 записей