Transfer Learning via Lexical Relatedness: A Sarcasm and Hate Speech Case Study
2508.16555v1
cs.CL, cs.LG
2025-08-26
Авторы:
Angelly Cabrera, Linus Lei, Antonio Ortega
Резюме на русском
#### Контекст
Социальные сети становятся все более многообразными, что приводит к распространению неочевидных форм выражения, таких как сарказм и ненависть. Определение таких феноменов чрезвычайно важно для создания защитных механизмов, которые могут распознавать их вне зависимости от добросовестности или намеренности. Однако сарказм и ненависть часто перекрываются в плане устойчивости и контекста, что создает сложности для классических моделей. Мы изучаем возможность использования сарказма как предварительного шага в обучении моделей к распознаванию ненависти, а также оцениваем возможность использования этих моделей для обнаружения имплицитного и эксплицитного ненависти.
#### Метод
Мы предложили две стратегии обучения, которые используют сарказм для повышения точности моделей распознавания ненависти. Первая стратегия предполагает процесс обучения в один шаг. Модель, обучающаяся на сарказме, работает на данных ненависти, чтобы оценить её эффективность. Вторая стратегия использует последовательные шаги: модель обучается на сарказме, затем подгоняется на имплицитной ненависти и снова подгоняется на эксплицитной ненависти. Мы использовали данные из набора ETHOS, Reddit Sarcasm Corpus и Implicit Hate Corpus. Модели, которые мы исследовали, включали CNN+LSTM и BERT+BiLSTM.
#### Результаты
Мы оценили эффективность обучения на сарказме через показатели recall, AUC и F1-score. Модель BERT+BiLSTM показала улучшение recall-а на 9,7%, AUC на 7,8% и F1-score на 6% на ETHOS, используя сарказм как предварительный шаг. Имплицитная ненависть обнаруживалась с большей точностью при использовании sarcasm-pre-trained модели. Эксплицитная ненависть также показала улучшение в F1-score, хотя не так ощутимо, как в случае с имплицитной ненавистью.
#### Значимость
Наши результаты показали, что использование сарказма в качестве предварительного шага может существенно улучшить модели распознавания ненависти. Этот подход имеет широкое применение в защите социальных сетей от ненависти и ненормативного языка. Изучение связи между сарказмом и ненавистью может позволить создать более точные модели, которые будут применяться в других областях, таких как анализ отношений в группах или мониторинг безопасности.
#### Выводы
Мы доказали, что сарказм может быть эффективным ресурсом для обучения моделей к распознаванию ненависти, в том числе имплицитной. Наш рабочий ход может быть расширен на другие типы неочевидного ненормативного языка. В будущем мы планируем проверить эти модели на более крупных выборках и исследовать другие методы предварительного обучения.
Abstract
Detecting hate speech in non-direct forms, such as irony, sarcasm, and
innuendos, remains a persistent challenge for social networks. Although sarcasm
and hate speech are regarded as distinct expressions, our work explores whether
integrating sarcasm as a pre-training step improves implicit hate speech
detection and, by extension, explicit hate speech detection. Incorporating
samples from ETHOS, Sarcasm on Reddit, and Implicit Hate Corpus, we devised two
training strategies to compare the effectiveness of sarcasm pre-training on a
CNN+LSTM and BERT+BiLSTM model. The first strategy is a single-step training
approach, where a model trained only on sarcasm is then tested on hate speech.
The second strategy uses sequential transfer learning to fine-tune models for
sarcasm, implicit hate, and explicit hate. Our results show that sarcasm
pre-training improved the BERT+BiLSTM's recall by 9.7%, AUC by 7.8%, and
F1-score by 6% on ETHOS. On the Implicit Hate Corpus, precision increased by
7.8% when tested only on implicit samples. By incorporating sarcasm into the
training process, we show that models can more effectively detect both implicit
and explicit hate.
Ссылки и действия
Дополнительные ресурсы: