Transfer Learning via Lexical Relatedness: A Sarcasm and Hate Speech Case Study

2508.16555v1 cs.CL, cs.LG 2025-08-26
Авторы:

Angelly Cabrera, Linus Lei, Antonio Ortega

Резюме на русском

#### Контекст Социальные сети становятся все более многообразными, что приводит к распространению неочевидных форм выражения, таких как сарказм и ненависть. Определение таких феноменов чрезвычайно важно для создания защитных механизмов, которые могут распознавать их вне зависимости от добросовестности или намеренности. Однако сарказм и ненависть часто перекрываются в плане устойчивости и контекста, что создает сложности для классических моделей. Мы изучаем возможность использования сарказма как предварительного шага в обучении моделей к распознаванию ненависти, а также оцениваем возможность использования этих моделей для обнаружения имплицитного и эксплицитного ненависти. #### Метод Мы предложили две стратегии обучения, которые используют сарказм для повышения точности моделей распознавания ненависти. Первая стратегия предполагает процесс обучения в один шаг. Модель, обучающаяся на сарказме, работает на данных ненависти, чтобы оценить её эффективность. Вторая стратегия использует последовательные шаги: модель обучается на сарказме, затем подгоняется на имплицитной ненависти и снова подгоняется на эксплицитной ненависти. Мы использовали данные из набора ETHOS, Reddit Sarcasm Corpus и Implicit Hate Corpus. Модели, которые мы исследовали, включали CNN+LSTM и BERT+BiLSTM. #### Результаты Мы оценили эффективность обучения на сарказме через показатели recall, AUC и F1-score. Модель BERT+BiLSTM показала улучшение recall-а на 9,7%, AUC на 7,8% и F1-score на 6% на ETHOS, используя сарказм как предварительный шаг. Имплицитная ненависть обнаруживалась с большей точностью при использовании sarcasm-pre-trained модели. Эксплицитная ненависть также показала улучшение в F1-score, хотя не так ощутимо, как в случае с имплицитной ненавистью. #### Значимость Наши результаты показали, что использование сарказма в качестве предварительного шага может существенно улучшить модели распознавания ненависти. Этот подход имеет широкое применение в защите социальных сетей от ненависти и ненормативного языка. Изучение связи между сарказмом и ненавистью может позволить создать более точные модели, которые будут применяться в других областях, таких как анализ отношений в группах или мониторинг безопасности. #### Выводы Мы доказали, что сарказм может быть эффективным ресурсом для обучения моделей к распознаванию ненависти, в том числе имплицитной. Наш рабочий ход может быть расширен на другие типы неочевидного ненормативного языка. В будущем мы планируем проверить эти модели на более крупных выборках и исследовать другие методы предварительного обучения.

Abstract

Detecting hate speech in non-direct forms, such as irony, sarcasm, and innuendos, remains a persistent challenge for social networks. Although sarcasm and hate speech are regarded as distinct expressions, our work explores whether integrating sarcasm as a pre-training step improves implicit hate speech detection and, by extension, explicit hate speech detection. Incorporating samples from ETHOS, Sarcasm on Reddit, and Implicit Hate Corpus, we devised two training strategies to compare the effectiveness of sarcasm pre-training on a CNN+LSTM and BERT+BiLSTM model. The first strategy is a single-step training approach, where a model trained only on sarcasm is then tested on hate speech. The second strategy uses sequential transfer learning to fine-tune models for sarcasm, implicit hate, and explicit hate. Our results show that sarcasm pre-training improved the BERT+BiLSTM's recall by 9.7%, AUC by 7.8%, and F1-score by 6% on ETHOS. On the Implicit Hate Corpus, precision increased by 7.8% when tested only on implicit samples. By incorporating sarcasm into the training process, we show that models can more effectively detect both implicit and explicit hate.

Ссылки и действия