Classification is a RAG problem: A case study on hate speech detection

2508.06204v1 cs.CL, cs.AI, cs.LG 2025-08-12
Авторы:

Richard Willats, Josh Pennington, Aravind Mohan, Bertie Vidgen

Резюме на русском

## Контекст Классификация вопросов, связанных с модерацией контента, остается вызовом для современных систем модерации. Одним из основных признаков является то, что правила модерации часто меняются, что приводит к необходимости регулярной переобучения моделей. Это не только увеличивает затраты на ресурсы, но и затрудняет достижение высокой точности в классификации. Кроме того, существующие системы часто не демонстрируют достаточной транспарентности, что снижает доверие пользователей и организаций. Учитывая эти проблемы, необходимо разработать методы, которые позволят классификационным системам быстро адаптироваться к изменениям политик модерации, обеспечивая точность и ясность в процессе принятия решений. ## Метод Методология, представленная в статье, основывается на подходе Retrieval-Augmented Generation (RAG). В отличие от традиционных классификационных систем, которые опираются на предварительно обученные параметры, RAG-системы используют внешний источник знаний для оценки контента. В данном случае, источником знаний является политика модерации. Рассматриваемая методика превращает задачу классификации из "этот контент является явлением ненормативных высказываний?" в "этот контент нарушает политику модерации по ненормативным высказываниям?". Это делает процесс классификации более гибким и контекстуализированным. Для реализации возможности RAG использована система Contextual Policy Engine (CPE), которая использует технологии генерирующих моделей для анализа контента и вывода решений на базе политики модерации. ## Результаты Рассмотренная система прошла три эксперимента, посвященных оценке системы классификации на основе RAG. В первом эксперименте система была сравнена с трех ведущих коммерческих системами модерации, и демонстрировала сопоставимую точность классификации. Во втором эксперименте проверялась способность системы взаимодействовать с конкретными группами пользователей, демонстрируя точность в жесткой корректировке политики модерации. Наконец, в третьем эксперименте была проверена возможность системы адаптироваться к изменению политики модерации без переобучения, что демонстрирует динамическую гибкость и транспарентность. Результаты показали, что RAG-системы могут предоставить высокую точность классификации и ясность решений, что является ключевым преимуществом для модерации контента и других классификационных задач. ## Значимость Результаты системы RAG имеют широкие применения в модерации контента, где необходима строгая адаптация к изменяющимся политикам. Кроме того, технология RAG может быть применена в других классификационных за

Abstract

Robust content moderation requires classification systems that can quickly adapt to evolving policies without costly retraining. We present classification using Retrieval-Augmented Generation (RAG), which shifts traditional classification tasks from determining the correct category in accordance with pre-trained parameters to evaluating content in relation to contextual knowledge retrieved at inference. In hate speech detection, this transforms the task from "is this hate speech?" to "does this violate the hate speech policy?" Our Contextual Policy Engine (CPE) - an agentic RAG system - demonstrates this approach and offers three key advantages: (1) robust classification accuracy comparable to leading commercial systems, (2) inherent explainability via retrieved policy segments, and (3) dynamic policy updates without model retraining. Through three experiments, we demonstrate strong baseline performance and show that the system can apply fine-grained policy control by correctly adjusting protection for specific identity groups without requiring retraining or compromising overall performance. These findings establish that RAG can transform classification into a more flexible, transparent, and adaptable process for content moderation and wider classification problems.

Ссылки и действия