Towards Safer AI Moderation: Evaluating LLM Moderators Through a Unified Benchmark Dataset and Advocating a Human-First Approach
2508.07063v1
cs.AI
2025-08-13
Авторы:
Naseem Machlovi, Maryam Saleki, Innocent Ababio, Ruhul Amin
Резюме на русском
#### Контекст
Современные AI-системы вошли во многие аспекты нашего ежедневного быта, в том числе системы модерации контента. Несмотря на невероятные возможности Ланжуажных Моделей Модерации (LLM), они недостаточно эффективны в обнаружении субъективных и контекст-зависимых проблем, таких как откровенное злоупотребление языком, гендерные и расовые предрассудки. Эти недостатки могут привести к возникновению критических рисков в широком кругу приложений. Необходимо новые подходы, которые станим действительно эффективными в поддержке безопасности и интеллектуального потенциала системы.
#### Метод
Мы разработали SOTA-фреймворк, включающий 49 категорий эмоций, злословий и биас-текстов. Для этого был оптимизирован модельный характер Phi-4 с помощью QLoRA. Этот подход позволил значительно улучшить эмоциональное понимание и уменьшить биазы в модели. Мы провели значительные эксперименты, проверяя модель на соответствии созданным тестам. Затем был разработан SafePhi, демонстрирующий совершенно новый уровень точности в обнаружении злоупотреблений языком.
#### Результаты
В результате наших экспериментов, модель SafePhi достигла макро-F1-плавающего среднего 0.89. Это выше, чем OpenAI Moderator (0.77) и Llama Guard (0.74). Мы проанализировали результаты на отдельных категориях, выявив слабые места LLM-моделей, такие как отсутствие четкого понимания относительно гендерных и расовых стереотипов. Это позволило определить ключевые направления для дальнейших улучшений.
#### Значимость
Наша модель SafePhi может применяться в различных областях, таких как модерация социальных сетей, финансовые платформы, новые формы технического обучения. Значительное преимущество SafePhi заключается в более глубоком понимании контекста, лучшем обнаружении гендерных и расовых биаз, что позволяет значительно повысить безопасность и эффективность AI-систем.
#### Выводы
Полученные результаты подтверждают значительные потенциалы LLM-систем в области модерации, но также выделяют необходимость улучшения моделей для широкого использования. Наша модель SafePhi открывает путь к более эффективной и безопасной модерации, при этом рекомендуется дальнейший использование трансформативной процедуры, включающую Human-in-the-Loop и более широкомасштабные данные, для более точного и универсального понимания субъективных и контекст-зависимых проблем.
Abstract
As AI systems become more integrated into daily life, the need for safer and
more reliable moderation has never been greater. Large Language Models (LLMs)
have demonstrated remarkable capabilities, surpassing earlier models in
complexity and performance. Their evaluation across diverse tasks has
consistently showcased their potential, enabling the development of adaptive
and personalized agents. However, despite these advancements, LLMs remain prone
to errors, particularly in areas requiring nuanced moral reasoning. They
struggle with detecting implicit hate, offensive language, and gender biases
due to the subjective and context-dependent nature of these issues. Moreover,
their reliance on training data can inadvertently reinforce societal biases,
leading to inconsistencies and ethical concerns in their outputs. To explore
the limitations of LLMs in this role, we developed an experimental framework
based on state-of-the-art (SOTA) models to assess human emotions and offensive
behaviors. The framework introduces a unified benchmark dataset encompassing 49
distinct categories spanning the wide spectrum of human emotions, offensive and
hateful text, and gender and racial biases. Furthermore, we introduced SafePhi,
a QLoRA fine-tuned version of Phi-4, adapting diverse ethical contexts and
outperforming benchmark moderators by achieving a Macro F1 score of 0.89, where
OpenAI Moderator and Llama Guard score 0.77 and 0.74, respectively. This
research also highlights the critical domains where LLM moderators consistently
underperformed, pressing the need to incorporate more heterogeneous and
representative data with human-in-the-loop, for better model robustness and
explainability.
Ссылки и действия
Дополнительные ресурсы: