Towards Trustworthy Multimodal Moderation via Policy-Aligned Reasoning and Hierarchical Labeling
2508.03296v1
cs.CL, cs.LG
2025-08-09
Авторы:
Anqi Li, Wenwei Jin, Jintao Tong, Pengda Qin, Weijia Li, Guo Lu
Резюме на русском
Многие социальные платформы сталкиваются с проблемой распространения вредоносного и несоответствующего политикам контента. Традиционные модели модерации слишком нацелены на эффективность и часто производят неточные и непонятные решения, что затрудняет их контроль людьми. В статье предлагается фреймворк **Hi-Guard**, решающий эти проблемы за счет интеграции политико-ориентированного рассуждения и гибридной моделирования. Он включает две стадии модерации: первичную бинарную фильтрацию и вторичную тонкослойную классификацию с использованием гибридной техники path-based classification. Модель интегрирует определения политик непосредственно в процесс рассуждения, что обеспечивает лучшую адаптацию к изменяющимся политикам. Для повышения качества предсказаний и интерпретабельности был введен Group Relative Policy Optimization (GRPO), который устраняет семантически близкие ошибки. Исследования показали, что Hi-Guard превосходит существующие модели по точности классификации, общей универсальности и четкости выводов, делая модерацию более надежной и прозрачной.
Abstract
Social platforms have revolutionized information sharing, but also
accelerated the dissemination of harmful and policy-violating content. To
ensure safety and compliance at scale, moderation systems must go beyond
efficiency and offer accuracy and interpretability. However, current approaches
largely rely on noisy, label-driven learning, lacking alignment with moderation
rules and producing opaque decisions that hinder human review. Therefore, we
propose Hierarchical Guard (Hi-Guard), a multimodal moderation framework that
introduces a new policy-aligned decision paradigm. The term "Hierarchical"
reflects two key aspects of our system design: (1) a hierarchical moderation
pipeline, where a lightweight binary model first filters safe content and a
stronger model handles fine-grained risk classification; and (2) a hierarchical
taxonomy in the second stage, where the model performs path-based
classification over a hierarchical taxonomy ranging from coarse to fine-grained
levels. To ensure alignment with evolving moderation policies, Hi-Guard
directly incorporates rule definitions into the model prompt. To further
enhance structured prediction and reasoning, we introduce a multi-level
soft-margin reward and optimize with Group Relative Policy Optimization (GRPO),
penalizing semantically adjacent misclassifications and improving explanation
quality. Extensive experiments and real-world deployment demonstrate that
Hi-Guard achieves superior classification accuracy, generalization, and
interpretability, paving the way toward scalable, transparent, and trustworthy
content safety systems. Code is available at:
https://github.com/lianqi1008/Hi-Guard.
Ссылки и действия
Дополнительные ресурсы: