Towards Trustworthy Multimodal Moderation via Policy-Aligned Reasoning and Hierarchical Labeling

2508.03296v1 cs.CL, cs.LG 2025-08-09
Авторы:

Anqi Li, Wenwei Jin, Jintao Tong, Pengda Qin, Weijia Li, Guo Lu

Резюме на русском

Многие социальные платформы сталкиваются с проблемой распространения вредоносного и несоответствующего политикам контента. Традиционные модели модерации слишком нацелены на эффективность и часто производят неточные и непонятные решения, что затрудняет их контроль людьми. В статье предлагается фреймворк **Hi-Guard**, решающий эти проблемы за счет интеграции политико-ориентированного рассуждения и гибридной моделирования. Он включает две стадии модерации: первичную бинарную фильтрацию и вторичную тонкослойную классификацию с использованием гибридной техники path-based classification. Модель интегрирует определения политик непосредственно в процесс рассуждения, что обеспечивает лучшую адаптацию к изменяющимся политикам. Для повышения качества предсказаний и интерпретабельности был введен Group Relative Policy Optimization (GRPO), который устраняет семантически близкие ошибки. Исследования показали, что Hi-Guard превосходит существующие модели по точности классификации, общей универсальности и четкости выводов, делая модерацию более надежной и прозрачной.

Abstract

Social platforms have revolutionized information sharing, but also accelerated the dissemination of harmful and policy-violating content. To ensure safety and compliance at scale, moderation systems must go beyond efficiency and offer accuracy and interpretability. However, current approaches largely rely on noisy, label-driven learning, lacking alignment with moderation rules and producing opaque decisions that hinder human review. Therefore, we propose Hierarchical Guard (Hi-Guard), a multimodal moderation framework that introduces a new policy-aligned decision paradigm. The term "Hierarchical" reflects two key aspects of our system design: (1) a hierarchical moderation pipeline, where a lightweight binary model first filters safe content and a stronger model handles fine-grained risk classification; and (2) a hierarchical taxonomy in the second stage, where the model performs path-based classification over a hierarchical taxonomy ranging from coarse to fine-grained levels. To ensure alignment with evolving moderation policies, Hi-Guard directly incorporates rule definitions into the model prompt. To further enhance structured prediction and reasoning, we introduce a multi-level soft-margin reward and optimize with Group Relative Policy Optimization (GRPO), penalizing semantically adjacent misclassifications and improving explanation quality. Extensive experiments and real-world deployment demonstrate that Hi-Guard achieves superior classification accuracy, generalization, and interpretability, paving the way toward scalable, transparent, and trustworthy content safety systems. Code is available at: https://github.com/lianqi1008/Hi-Guard.

Ссылки и действия