📊 Статистика дайджестов
Всего дайджестов: 34607 Добавлено сегодня: 0
Последнее обновление: сегодня
📄 LLMSymGuard: A Symbolic Safety Guardrail Framework Leveraging Interpretable Jailbreak Concepts
2025-08-26Авторы:
Darpan Aswal, Céline Hudelot
## Контекст
Проблемы безопасности в области бо LLM (Large Language Models) остаются высокими, несмотря на значительные усилия по их устранению. Особенно актуальной является проблема "jailbreak" - способов скрытого проникновения в модель для получения нежелательного или злонамеренного контента. Это часто приводит к таким проблемам, как целенаправленное использование моделей для нанесения вреда, а также к акцIDENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENT
Annotation:
Large Language Models have found success in a variety of applications;
however, their safety remains a matter of concern due to the existence of
various types of jailbreaking methods. Despite significant efforts, alignment
and safety fine-tuning only provide a certain degree of robustness against
jailbreak attacks that covertly mislead LLMs towards the generation of harmful
content. This leaves them prone to a number of vulnerabilities, ranging from
targeted misuse to accidental profiling of use...