Towards Safer AI Moderation: Evaluating LLM Moderators Through a Unified Benchmark Dataset and Advocating a Human-First Approach

2508.07063v1 cs.AI 2025-08-13
Авторы:

Naseem Machlovi, Maryam Saleki, Innocent Ababio, Ruhul Amin

Резюме на русском

#### Контекст Современные AI-системы вошли во многие аспекты нашего ежедневного быта, в том числе системы модерации контента. Несмотря на невероятные возможности Ланжуажных Моделей Модерации (LLM), они недостаточно эффективны в обнаружении субъективных и контекст-зависимых проблем, таких как откровенное злоупотребление языком, гендерные и расовые предрассудки. Эти недостатки могут привести к возникновению критических рисков в широком кругу приложений. Необходимо новые подходы, которые станим действительно эффективными в поддержке безопасности и интеллектуального потенциала системы. #### Метод Мы разработали SOTA-фреймворк, включающий 49 категорий эмоций, злословий и биас-текстов. Для этого был оптимизирован модельный характер Phi-4 с помощью QLoRA. Этот подход позволил значительно улучшить эмоциональное понимание и уменьшить биазы в модели. Мы провели значительные эксперименты, проверяя модель на соответствии созданным тестам. Затем был разработан SafePhi, демонстрирующий совершенно новый уровень точности в обнаружении злоупотреблений языком. #### Результаты В результате наших экспериментов, модель SafePhi достигла макро-F1-плавающего среднего 0.89. Это выше, чем OpenAI Moderator (0.77) и Llama Guard (0.74). Мы проанализировали результаты на отдельных категориях, выявив слабые места LLM-моделей, такие как отсутствие четкого понимания относительно гендерных и расовых стереотипов. Это позволило определить ключевые направления для дальнейших улучшений. #### Значимость Наша модель SafePhi может применяться в различных областях, таких как модерация социальных сетей, финансовые платформы, новые формы технического обучения. Значительное преимущество SafePhi заключается в более глубоком понимании контекста, лучшем обнаружении гендерных и расовых биаз, что позволяет значительно повысить безопасность и эффективность AI-систем. #### Выводы Полученные результаты подтверждают значительные потенциалы LLM-систем в области модерации, но также выделяют необходимость улучшения моделей для широкого использования. Наша модель SafePhi открывает путь к более эффективной и безопасной модерации, при этом рекомендуется дальнейший использование трансформативной процедуры, включающую Human-in-the-Loop и более широкомасштабные данные, для более точного и универсального понимания субъективных и контекст-зависимых проблем.

Abstract

As AI systems become more integrated into daily life, the need for safer and more reliable moderation has never been greater. Large Language Models (LLMs) have demonstrated remarkable capabilities, surpassing earlier models in complexity and performance. Their evaluation across diverse tasks has consistently showcased their potential, enabling the development of adaptive and personalized agents. However, despite these advancements, LLMs remain prone to errors, particularly in areas requiring nuanced moral reasoning. They struggle with detecting implicit hate, offensive language, and gender biases due to the subjective and context-dependent nature of these issues. Moreover, their reliance on training data can inadvertently reinforce societal biases, leading to inconsistencies and ethical concerns in their outputs. To explore the limitations of LLMs in this role, we developed an experimental framework based on state-of-the-art (SOTA) models to assess human emotions and offensive behaviors. The framework introduces a unified benchmark dataset encompassing 49 distinct categories spanning the wide spectrum of human emotions, offensive and hateful text, and gender and racial biases. Furthermore, we introduced SafePhi, a QLoRA fine-tuned version of Phi-4, adapting diverse ethical contexts and outperforming benchmark moderators by achieving a Macro F1 score of 0.89, where OpenAI Moderator and Llama Guard score 0.77 and 0.74, respectively. This research also highlights the critical domains where LLM moderators consistently underperformed, pressing the need to incorporate more heterogeneous and representative data with human-in-the-loop, for better model robustness and explainability.

Ссылки и действия