📊 Статистика дайджестов

Всего дайджестов: 34607 Добавлено сегодня: 0

Последнее обновление: сегодня

📄 LLMSymGuard: A Symbolic Safety Guardrail Framework Leveraging Interpretable Jailbreak Concepts

2025-08-26

Авторы:

Darpan Aswal, Céline Hudelot

## Контекст Проблемы безопасности в области бо LLM (Large Language Models) остаются высокими, несмотря на значительные усилия по их устранению. Особенно актуальной является проблема "jailbreak" - способов скрытого проникновения в модель для получения нежелательного или злонамеренного контента. Это часто приводит к таким проблемам, как целенаправленное использование моделей для нанесения вреда, а также к акцIDENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENTIFYENT

Annotation:

Large Language Models have found success in a variety of applications; however, their safety remains a matter of concern due to the existence of various types of jailbreaking methods. Despite significant efforts, alignment and safety fine-tuning only provide a certain degree of robustness against jailbreak attacks that covertly mislead LLMs towards the generation of harmful content. This leaves them prone to a number of vulnerabilities, ranging from targeted misuse to accidental profiling of use...

ID: 2508.16325v1 cs.CL, cs.AI, cs.SC

arXiv PDF