📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Breaking to Build: A Threat Model of Prompt-Based Attacks for Securing LLMs

2025-09-09

Авторы:

Brennen Hill, Surendra Parla, Venkata Abhijeeth Balabhadruni, Atharv Prajod Padmalayam, Sujay Chandra Shekara Sharma

## Контекст С возрастом технологий искусственного интеллекта появились новые виды угроз, которые могут использоваться для коварных атак на системы, основанные на Больших Лингвистических Моделях (LLMs). Эти модели, пользуясь их мощью и гибкостью, становятся добычей для злоумышленников, которые могут уклониться от защитных мер, превратив LLM в угрозу для пользователей. Такие атаки могут привести к утечке конфиденциальной информации, распространению ложной информации, а также повреждению доверия к системам. Защита таких моделей является ключевым вызовом для современных исследователей, который необходимо решить для стабильного развития интеллектуальных систем. ## Метод Для описания угроз и разработки защитных мер в работе используется программная модель, которая позволяет структурировать типы атак, а также анализировать результаты их попыток. Метод состоит в следующем: 1) описание различных типов атак, построенных на манипуляции свойств привлечения, 2) распределение этих типов в категории, 3) разработка мер защиты, которые могут снизить эффективность атак и обеспечить безопасность. Основной архитектуре способа является то, что она фокусируется на понимании и создании границ, ограничивающих возможные атаки. ## Результаты Работа включает в себя исследование различных типов атак на LLM, использующихся в разных сценариях. Для этого проводились эксперименты, в которых протестировались различные методы атак, в том числе информационно-привлекательные и масштабные атаки. Эксперименты были проведены на наборе данных, который включал различные типы текстов, в том числе новости, письма и социальные медиа материалы. В результате этих исследований был выявлен комплекс уязвимостей, которые могут быть использованы для атак. Также были определены меры защиты, которые способны снизить эффективность таких атак. ## Значимость Метод, разработанный в работе, может быть применен для защиты систем, использующих Большие Лингвистические Модели. Он может быть использован для повышения безопасности систем, которые работают с пользовательскими данными, включая информацию о финансовых операциях, личные данные, и другую конфиденциальную информацию. Помимо этого, метод может быть применен в сферах, где необходимо предотвратить распространение ложной информации, укрепить доверие пользователей к системам и уменьшить риски утечки информации. ## Выводы Работа позволяет выделить комплекс угроз, связанных с Большими Лингвистическими Моделями, и разработать защитные меры

Annotation:

The proliferation of Large Language Models (LLMs) has introduced critical security challenges, where adversarial actors can manipulate input prompts to cause significant harm and circumvent safety alignments. These prompt-based attacks exploit vulnerabilities in a model's design, training, and contextual understanding, leading to intellectual property theft, misinformation generation, and erosion of user trust. A systematic understanding of these attack vectors is the foundational step toward de...

ID: 2509.04615v1 cs.CL, cs.CR, cs.LG, 68T07, 68T50, I.2.7; I.2.6; K.6.5

arXiv PDF