Guardians and Offenders: A Survey on Harmful Content Generation and Safety Mitigation
2508.05775v1
cs.CL, cs.CY
2025-08-12
Авторы:
Chi Zhang, Changjia Zhu, Junjie Xiong, Xiaoran Xu, Lingyao Li, Yao Liu, Zhuo Lu
Резюме на русском
## Контекст
Large Language Models (LLMs) превратились в мощные инструменты для генерации и понимания естественного языка, облегчая различные задачи, такие как создание контента, поиск ответов на вопросы (Q&A), программирование и навигация в коде. Однако эти модели также имеют потенциал создавать небезопасный контент, включая токсичность, нарушения авторских прав и отклонения от целей, заложенных при обучении. Это создает серьезные возможности для эксплуатации моделей в злоупотреблениях, таких как "адвокативный jailbreaking" или "атаки с моделями подражания". Такие риски приводят к возникновению сложной социотехнической проблемы, требующей понимания механизмов генерирования вредоносного контента и разработки эффективных стратегий борьбы с этим.
## Метод
Для анализа данной проблемы был разработан подробный подход к исследованию. Включено исследование непреднамеренной токсичности, атак типа "jailbreaking" (в том числе многомодальные), и системы модерации контента. Определена структура типов вредоносного контента, включающая вредоносность непреднамеренной, атаки "jailbreaking", а также попытки создания ограниченных моделей, которые не соответствуют исходной задаче. Были рассмотрены различные методы борьбы с вредоносным контентом, включая реинфорсмент с людским вкладом (RLHF), модификацию запросов (prompt engineering) и технологии соответствия безопасности.
## Результаты
На основе проведенного исследования были получены следующие результаты. Систематическое изучение методов борьбы с вредоносным контентом позволило выявить следующие стратегии: (i) реинфорсмент с людским вкладом (RLHF), (ii) модификация запросов (prompt engineering), (iii) многомодальные атаки, (iv) модели подражания. Анализ показал, что RLHF и модификация запросов показали высокую эффективность в борьбе с непреднамеренной токсичностью, но имеют ограничения в отношении многомодальных атак. В то же время, многомодальные методы, такие как "атаки с подражания", показали свою эффективность в преодолении существующих безопасных систем.
## Значимость
В результате данного исследования была разработана новая категоризация вредоносности LLMs и стратегий борьбы с ней. Это дает возможность улучшить системы модерации и повысить уровень безопасности использования LLMs. Результаты имеют значительный потенциал в различных областях, включая социальные сети, медиа и образовательные ресурсы. Эти подходы могут способствовать созданию более безопасных, этичных и эффективных технологий генерации контента.
## Выводы
Работа, приведенная в этом исследовании, позволила проана
Abstract
Large Language Models (LLMs) have revolutionized content creation across
digital platforms, offering unprecedented capabilities in natural language
generation and understanding. These models enable beneficial applications such
as content generation, question and answering (Q&A), programming, and code
reasoning. Meanwhile, they also pose serious risks by inadvertently or
intentionally producing toxic, offensive, or biased content. This dual role of
LLMs, both as powerful tools for solving real-world problems and as potential
sources of harmful language, presents a pressing sociotechnical challenge. In
this survey, we systematically review recent studies spanning unintentional
toxicity, adversarial jailbreaking attacks, and content moderation techniques.
We propose a unified taxonomy of LLM-related harms and defenses, analyze
emerging multimodal and LLM-assisted jailbreak strategies, and assess
mitigation efforts, including reinforcement learning with human feedback
(RLHF), prompt engineering, and safety alignment. Our synthesis highlights the
evolving landscape of LLM safety, identifies limitations in current evaluation
methodologies, and outlines future research directions to guide the development
of robust and ethically aligned language technologies.
Ссылки и действия
Дополнительные ресурсы: