Guardians and Offenders: A Survey on Harmful Content Generation and Safety Mitigation

2508.05775v1 cs.CL, cs.CY 2025-08-12
Авторы:

Chi Zhang, Changjia Zhu, Junjie Xiong, Xiaoran Xu, Lingyao Li, Yao Liu, Zhuo Lu

Резюме на русском

## Контекст Large Language Models (LLMs) превратились в мощные инструменты для генерации и понимания естественного языка, облегчая различные задачи, такие как создание контента, поиск ответов на вопросы (Q&A), программирование и навигация в коде. Однако эти модели также имеют потенциал создавать небезопасный контент, включая токсичность, нарушения авторских прав и отклонения от целей, заложенных при обучении. Это создает серьезные возможности для эксплуатации моделей в злоупотреблениях, таких как "адвокативный jailbreaking" или "атаки с моделями подражания". Такие риски приводят к возникновению сложной социотехнической проблемы, требующей понимания механизмов генерирования вредоносного контента и разработки эффективных стратегий борьбы с этим. ## Метод Для анализа данной проблемы был разработан подробный подход к исследованию. Включено исследование непреднамеренной токсичности, атак типа "jailbreaking" (в том числе многомодальные), и системы модерации контента. Определена структура типов вредоносного контента, включающая вредоносность непреднамеренной, атаки "jailbreaking", а также попытки создания ограниченных моделей, которые не соответствуют исходной задаче. Были рассмотрены различные методы борьбы с вредоносным контентом, включая реинфорсмент с людским вкладом (RLHF), модификацию запросов (prompt engineering) и технологии соответствия безопасности. ## Результаты На основе проведенного исследования были получены следующие результаты. Систематическое изучение методов борьбы с вредоносным контентом позволило выявить следующие стратегии: (i) реинфорсмент с людским вкладом (RLHF), (ii) модификация запросов (prompt engineering), (iii) многомодальные атаки, (iv) модели подражания. Анализ показал, что RLHF и модификация запросов показали высокую эффективность в борьбе с непреднамеренной токсичностью, но имеют ограничения в отношении многомодальных атак. В то же время, многомодальные методы, такие как "атаки с подражания", показали свою эффективность в преодолении существующих безопасных систем. ## Значимость В результате данного исследования была разработана новая категоризация вредоносности LLMs и стратегий борьбы с ней. Это дает возможность улучшить системы модерации и повысить уровень безопасности использования LLMs. Результаты имеют значительный потенциал в различных областях, включая социальные сети, медиа и образовательные ресурсы. Эти подходы могут способствовать созданию более безопасных, этичных и эффективных технологий генерации контента. ## Выводы Работа, приведенная в этом исследовании, позволила проана

Abstract

Large Language Models (LLMs) have revolutionized content creation across digital platforms, offering unprecedented capabilities in natural language generation and understanding. These models enable beneficial applications such as content generation, question and answering (Q&A), programming, and code reasoning. Meanwhile, they also pose serious risks by inadvertently or intentionally producing toxic, offensive, or biased content. This dual role of LLMs, both as powerful tools for solving real-world problems and as potential sources of harmful language, presents a pressing sociotechnical challenge. In this survey, we systematically review recent studies spanning unintentional toxicity, adversarial jailbreaking attacks, and content moderation techniques. We propose a unified taxonomy of LLM-related harms and defenses, analyze emerging multimodal and LLM-assisted jailbreak strategies, and assess mitigation efforts, including reinforcement learning with human feedback (RLHF), prompt engineering, and safety alignment. Our synthesis highlights the evolving landscape of LLM safety, identifies limitations in current evaluation methodologies, and outlines future research directions to guide the development of robust and ethically aligned language technologies.

Ссылки и действия