📊 Статистика дайджестов
Всего дайджестов: 34022 Добавлено сегодня: 82
Последнее обновление: сегодня
Авторы:
Omar Farooq Khan Suri, John McCrae
Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
Large Language Models (LLMs) are increasingly being deployed in real-world applications, but their flexibility exposes them to prompt injection attacks. These attacks leverage the model's instruction-following ability to make it perform malicious tasks. Recent work has proposed JATMO, a task-specific fine-tuning approach that trains non-instruction-tuned base models to perform a single function, thereby reducing susceptibility to adversarial instructions. In this study, we evaluate the robustnes...
Авторы:
Eric Xue, Ruiyi Zhang, Zijun Zhang, Pengtao Xie
Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
Transformer models are foundational to natural language processing (NLP) applications, yet remain vulnerable to backdoor attacks introduced through poisoned data, which implant hidden behaviors during training. To strengthen the ability to prevent such compromises, recent research has focused on designing increasingly stealthy attacks to stress-test existing defenses, pairing backdoor behaviors with stylized artifact or token-level perturbation triggers. However, this trend diverts attention fro...
Авторы:
Haohua Duan, Liyao Xiang, Xin Zhang
Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
Watermarking schemes for large language models (LLMs) have been proposed to
identify the source of the generated text, mitigating the potential threats
emerged from model theft. However, current watermarking solutions hardly
resolve the trust issue: the non-public watermark detection cannot prove itself
faithfully conducting the detection. We observe that it is attributed to the
secret key mostly used in the watermark detection -- it cannot be public, or
the adversary may launch removal attacks ...
Авторы:
Adetayo Adebimpe, Helmut Neukirchen, Thomas Welsh
Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
Honeypots are decoy systems used for gathering valuable threat intelligence
or diverting attackers away from production systems. Maximising attacker
engagement is essential to their utility. However research has highlighted that
context-awareness, such as the ability to respond to new attack types, systems
and attacker agents, is necessary to increase engagement. Large Language Models
(LLMs) have been shown as one approach to increase context awareness but suffer
from several challenges includin...
Авторы:
Owais Makroo, Siva Rajesh Kasa, Sumegh Roychowdhury, Karan Gupta, Nikhil Pattisapu, Santhosh Kasa, Sumit Negi
Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
Membership Inference Attacks (MIAs) pose a critical privacy threat by
enabling adversaries to determine whether a specific sample was included in a
model's training dataset. Despite extensive research on MIAs, systematic
comparisons between generative and discriminative classifiers remain limited.
This work addresses this gap by first providing theoretical motivation for why
generative classifiers exhibit heightened susceptibility to MIAs, then
validating these insights through comprehensive emp...
📄 Bits Leaked per Query: Information-Theoretic Bounds on Adversarial Attacks against LLMs
2025-10-22Авторы:
Masahiro Kaneko, Timothy Baldwin
Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
Adversarial attacks by malicious users that threaten the safety of large
language models (LLMs) can be viewed as attempts to infer a target property $T$
that is unknown when an instruction is issued, and becomes knowable only after
the model's reply is observed. Examples of target properties $T$ include the
binary flag that triggers an LLM's harmful response or rejection, and the
degree to which information deleted by unlearning can be restored, both
elicited via adversarial instructions. The LL...
📄 Differentially Private Synthetic Text Generation for Retrieval-Augmented Generation (RAG)
2025-10-10Авторы:
Junki Mori, Kazuya Kakizaki, Taiki Miyagawa, Jun Sakuma
Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
Retrieval-Augmented Generation (RAG) enhances large language models (LLMs) by
grounding them in external knowledge. However, its application in sensitive
domains is limited by privacy risks. Existing private RAG methods typically
rely on query-time differential privacy (DP), which requires repeated noise
injection and leads to accumulated privacy loss. To address this issue, we
propose DP-SynRAG, a framework that uses LLMs to generate differentially
private synthetic RAG databases. Unlike prior ...
Авторы:
Jingkai Guo, Chaitali Chakrabarti, Deliang Fan
#### Контекст
Large Language Models (LLMs) становятся все более популярными благодаря своим возможностям в области текстового понимания и генерации. Однако их со временем становится все чаще целью атак на безопасность. Одной из таких угроз является Bit-Flip Attack (BFA), способ атаки, в котором действующий бит в памяти модели меняется на ноль. Ранее проводились исследования, показавшие, что даже небольшое количество таких битовых ошибок может стать причиной серьезного ухудшения качества работы моделей, достигая уровня случайного генерирования. В этом работе мы исследуем применение BFA к самым современным LLMs и продемонстрируем, что даже один бит может испортить работу модели.
#### Метод
Мы предлагаем Single Sneaky Bit Flip Attack (SBFA), новый атакующий алгоритм, который разработан для LLMs. Этот метод основывается на итерационной оценке и рейтинге параметров модели с помощью ImpactScore, метрики, которая учитывает градиентную чувствительность и ограничение переменных в разумных границах нормальных значений весов модели. Для повышения эффективности, мы применяем новую легковесную SKIP-методику, которая существенно сокращает сложность поиска. Это позволяет выполнить поиск в течение нескольких минут для современных моделей LLM. Мы применяем SBFA к моделям Qwen, LLaMA и Gemma, чтобы продемонстрировать свою эффективность.
#### Результаты
Мы проводили эксперименты с LLMs в разных условиях, включая BF16 и INT8 данные. Наши результаты показывают, что SBFA способен серьезно испортить работу моделей, ниже уровня случайного угадывания, с помощью только одного бита из миллиардов параметров. Это отмечается как на Qwen, так и на LLaMA и Gemma. Эти результаты показывают, что даже один небольшой битовый сбой может стать причиной катастрофической заваливания модели.
#### Значимость
Эти результаты являются важной новостью для развития безопасности моделей LLMs. Мы показываем, что уязвимость LLMs к таким атакам может быть использована для нанесения вреда, даже при минимальных вмешательствах. Это открывает новые пути для развития методов защиты LLMs и повышения их надежности в реальном мире.
#### Выводы
Наши результаты демонстрируют, что SBFA является эффективным инструментом для проведения BFA на современных LLMs. Мы показываем, что даже один бит может стать причиной серьезного недостатка модели. Будущие исследования будут направлены на развитие методов защиты от таких атак и расширение понимания уязвимостей LLMs.
Annotation:
Model integrity of Large language models (LLMs) has become a pressing
security concern with their massive online deployment. Prior Bit-Flip Attacks
(BFAs) -- a class of popular AI weight memory fault-injection techniques -- can
severely compromise Deep Neural Networks (DNNs): as few as tens of bit flips
can degrade accuracy toward random guessing. Recent studies extend BFAs to LLMs
and reveal that, despite the intuition of better robustness from modularity and
redundancy, only a handful of adver...
📄 Localizing Malicious Outputs from CodeLLM
2025-09-24Авторы:
Mayukh Borana, Junyi Liang, Sai Sathiesh Rajan, Sudipta Chattopadhyay
#### Контекст
Машинное обучение (ML), особенно в сфере генерирующих моделей языка, повсеместно применяется в различных областях. Однако такие модели часто становятся целью атак, в том числе вредоносных. Например, вредоносные акторы могут использовать такие модели для внедрения backdoor-триггеров, которые могут быть активированы за счет конкретных входных данных. Это может привести к выводу вредоносных результатов или действий. Таким образом, исследование методов, позволяющих обнаруживать и локализовать такие вредоносные выходы, является ключевым для обеспечения безопасности и надежности ML-систем.
#### Метод
Метод, представленный в статье, называется FreqRank и основывается на мутационном подходе. Он использует частоту появления подозрительных подстрок в выходных данных для определения вредоносных субстрок. Для этого FreqRank сравнивает частоту появления таких подстрок в выходных данных с теми, что есть в стандартных, не вредоносных выходных данных. В случае наличия высокой частоты подозрительных подстрок, они относятся к вредоносным. Для локализации backdoor-триггеров FreqRank использует полученные рейтинги, выявляя подстроки, которые влияют на вредоносный результат. Архитектура метода предполагает использование генерирующей модели языка и предоставления подстрок для тестирования их влияния.
#### Результаты
Чтобы проверить эффективность FreqRank, авторы ввели в работу несколько вредоносных моделей, созданных путем fine-tuning или настройки пользовательских инструкций. Эти модели были применены к трем разным задачам: кода, компиляции и описания кода. Они показали среднюю успешность атаки (Attack Success Rate, ASR) в районе 86.6%. Система FreqRank смогла выделить вредоносные выходы в 98% случаев, отображая их в пяти лучших предложениях. Было также продемонстрировано, что эффективность FreqRank растёт с увеличением количества мутаций и демонстрирует высокую точность даже при малом количестве входных данных, активирующих триггер. Это делает FreqRank 35-50% эффективнее других методов, используемых для локализации вредоносных выходов.
#### Значимость
FreqRank может быть применен в различных областях, где используются генерирующие модели языка, таких как кодирование, описание и генерация кода. Его особенностью является высокая точность в локализации вредоносных выходов, что позволяет быстро итоговые модели исправить. Это повышает уровень безопасности и надежности таких моделей в реальном мире. Более того, FreqRank может быть использован для контроля качества и оптимизации моделей, выявляя и устраняя возможные уязвимости.
#### Выводы
Результаты исследований показывают, что FreqRank является эффективным инст
Annotation:
We introduce FreqRank, a mutation-based defense to localize malicious
components in LLM outputs and their corresponding backdoor triggers. FreqRank
assumes that the malicious sub-string(s) consistently appear in outputs for
triggered inputs and uses a frequency-based ranking system to identify them.
Our ranking system then leverages this knowledge to localize the backdoor
triggers present in the inputs. We create nine malicious models through
fine-tuning or custom instructions for three downstre...
Авторы:
Refat Othman, Diaeddin Rimawi, Bruno Rossi, Barbara Russo
#### Контекст
В области информационной безопасности важность анализа и автоматизации процесса связывания атак с уязвимостями несомненна. Несмотря на то, что уязвимости часто остаются незамеченными даже после их эксплуатации, их активное использование во время атак может обеспечить важные сведения о слабых местах систем. Установление связи между атаками и уязвимостями не только позволяет значительно сократить время отклика на инциденты, но и повышает эффективность защиты систем. Однако решение этой задачи вручную, особенно в больших объемах данных, невозможно, что приводит к потребности в автоматизированных системах. Текущая исследоательская работа адресует эту проблему, оценивая различные модели трансформации предложений с целью выявления подходящих уязвимостей.
#### Метод
Для решения проблемы связывания атак с уязвимостями были использованы 14 современных моделей трансформации предложений, включая Sentence-BERT, MiniLM и MPNet. Модели были обучены классифицировать текстовые описания атак и связывать их с уязвимостями из Common Vulnerabilities and Exposures (CVE) репозитория. Основной фокус был уделен модели Multi-QA-MPNet-base-dot-v1 (MMPNet), которая была оценена на специально подготовленных данных, содержащих технические описания атак. Результаты экспериментов были измерены с помощью метрик F1-score, precision и recall.
#### Результаты
Результаты экспериментов показали, что MMPNet достигла F1-score в 89.0, precision в 84.0 и recall в 94.7 при классификации описаний атак. Было обнаружено, что 56% уязвимостей, выявленных моделью, соответствуют уязвимостям, перечисленным в CVE, в сочетании с их атаками. Дополнительно, 61% уязвимостей, выявленных моделью, соответствуют таким, как описаны в CVE. Это позволяет судить о высокой эффективности модели в выявлении связанных уязвимостей. Было также выявлено, что 275 уязвимостей, выданных моделью, не были документированы в репозитории MITRE, что может указывать на новые находки в области безопасности.
#### Значимость
Результаты этой работы могут быть применены в области автоматизации мониторинга безопасности, позволяя системам быстрее и эффективнее реагировать на инциденты. Также модель MMPNet может использоваться для поиска новых уязвимостей, которые еще не описаны в репозиториях. Важно отметить, что этот подход может существенно сократить время, в течение которого уязвимости остаются необнаруженными и эксплуатируемыми, что повышает уровень защиты систем.
#### Выводы
Результаты исследования демонтстрируют, что модель MMPNet является высокоэффективной для связывания атак с уязвимостями. В даль
Annotation:
In the domain of security, vulnerabilities frequently remain undetected even
after their exploitation. In this work, vulnerabilities refer to publicly
disclosed flaws documented in Common Vulnerabilities and Exposures (CVE)
reports. Establishing a connection between attacks and vulnerabilities is
essential for enabling timely incident response, as it provides defenders with
immediate, actionable insights. However, manually mapping attacks to CVEs is
infeasible, thereby motivating the need for au...
Показано 1 -
10
из 13 записей