CPCLDETECTOR: Knowledge Enhancement and Alignment Selection for Chinese Patronizing and Condescending Language Detection
2509.18562v2
cs.MM, cs.AI
2025-09-25
Авторы:
Jiaxun Yang, Yifei Han, Long Zhang, Yujie Liu, Bin Li, Bo Gao, Yangfan He, Kejia Zhan
Резюме на русском
## Контекст
Чувствительность к языку является ключевым аспектом социального образования и цифрового развития. Имеющиеся исследования показали, что некоторый лексический токсичный язык может негативно сказаться на участниках интернет-сообществ, особенно в контексте видео-платформ. Одним из таких сложных явлений является Chinese Patronizing and Condescending Language (CPCL), этот тип реплик, непосредственно или косвенно, способствует профилированию групп по расу, полам и возрасту. Однако существующие данные имеют ограничения во включении комментариев, которые являются непосредственной реакцией пользователей на видео-контент. Это влияет на модели, уменьшая их эффективность.
## Метод
Чтобы решить эти проблемы, новая методология CPCLDetector ввела значительные улучшения в области обработки текстовых данных. Модель использует знания из обучающих данных для повышения точности определения CPCL. Модель CPCLDetector разделяет уровни комментариев по глубине, чтобы более точно определить токсичность. Таким образом, модель находит токсичные элементы в контексте видео-контента, что позволяет лучше понять его. Более того, в реализации данной модели используется модель крупномасштабного языкового моделирования, что обеспечивает закрепление знаний и работу с контекстом.
## Результаты
Проведены эксперименты с двумя датасетотами: PCLMM и PCLMMPLUS. Использовались 103 тысяч комментариев, которые были получены с помощью модели CPCL-D. Результаты показали, что CPCLDetector превышает State-of-the-Art (SOTA) по метрикам F1-score и Recall-score. Более того, в условиях PCLMMPLUS модель показала себя еще лучше, демонстрируя способность лучше распознавать CPCL в контексте более крупных датасетов.
## Значимость
Система CPCLDetector может применяться в сервисах цифрового контента для мониторинга токсичности. Она позволяет не только определять CPCL, но и работать над исключением негативного языка в общественной сфере. Значительное улучшение эффективности модели в детектировании CPCL может способствовать более полному пониманию и контролю токсичности в цифровой среде.
## Выводы
Модель CPCLDetector демонстрирует улучшенную точность в детектировании CPCL, продемонстрировав способность работать в больших датасетах. Это определяет ее важность для мониторинга языка в онлайн-сообществах. Дальнейшими направлениями исследований является расширение модели, чтобы она могла работать с более сложными типами токсичного языка и модерировать контент в разных языковых регионах.
Abstract
Chinese Patronizing and Condescending Language (CPCL) is an implicitly
discriminatory toxic speech targeting vulnerable groups on Chinese video
platforms. The existing dataset lacks user comments, which are a direct
reflection of video content. This undermines the model's understanding of video
content and results in the failure to detect some CPLC videos. To make up for
this loss, this research reconstructs a new dataset PCLMMPLUS that includes
103k comment entries and expands the dataset size. We also propose the
CPCLDetector model with alignment selection and knowledge-enhanced comment
content modules. Extensive experiments show the proposed CPCLDetector
outperforms the SOTA on PCLMM and achieves higher performance on PCLMMPLUS .
CPLC videos are detected more accurately, supporting content governance and
protecting vulnerable groups. Code and dataset are available at
https://github.com/jiaxunyang256/PCLD.
Ссылки и действия
Дополнительные ресурсы: