Online Anti-sexist Speech: Identifying Resistance to Gender Bias in Political Discourse

2508.11434v1 cs.CL, cs.CY 2025-08-19
Авторы:

Aditi Dutta, Susan Banducci

Резюме на русском

#### Контекст Говорение против сексизма (антисексизм), то есть общественные высказывания, которые выступают против женского насилия и сексизма, играют ключевую роль в формировании демократических дебатов в онлайн-среде. Однако системы автоматического модерации содержимого, основанные на крупных языковых моделях (LLMs), часто сталкиваются с трудностями в различении этого антисексизма от текстов, содержащих сексизм. Это исследование рассматривает пять лидирующих LLMs и их возможность классифицировать твиты в государственном языке Великобритании, которые были высказаны в 2022 году, в контексте высокозначимых политических событий, в которых гендерная биаса присутствовал. Авторы подчеркивают, что многие модели часто неправильно классифицируют антисексизм как агрессивные или злонамеренные высказывания, что может привести к тому, что онлайн-среде негативно относятся к лицам, которые выступают против сексизма. Основной мотивацией для этого исследования является понимание, как модели анализируют подобные тексты и как это может повлиять на возможность людей высказывать свое мнение в интернете. #### Метод Для этого исследования были использованы твиты, высказанные в 2022 году в Великобритании, в контексте высокозначимых политических событий. Авторы проанализировали пять крупных языковых моделей, распределив твиты в категории «антисексизм», «сексизм» и «средний уровень содержания». На основе этих данных авторы выявили, как LLMs классифицируют тексты, содержащие антисексизм, и проанализировали возможность моделей видеть разницу между антисексизмом и сексизмом. Это был проведен структурированный анализ текстов, что позволило выявить наиболее часто встречающиеся ошибки классификации. #### Результаты Экспериментальные результаты показали, что LLMs часто преобразуют антисексизм в злонамеренные высказывания. Это в основном происходит в текстах, где выражение антисексизма и сексизма перекликаются. Такие результаты приводят к ситуации, когда лица, высказывающиеся против сексизма, могут быть недооценены или недооцененные. Лица, которые выступают против сексизма, часто получают отрицательную реакцию в онлайн-среде, что может привести к тому, что они будут недооцениваться и недооцениваться. Ошибки классификации LLMs могут привести к недооценке личностей, выступающих против сексизма, и к понижению уровня уважения к их мнениям. #### Значимость Эти представления имеют важное значение в сфере модерации содержимого в Интернете. Выявление ошибок в классификации текстов,

Abstract

Anti-sexist speech, i.e., public expressions that challenge or resist gendered abuse and sexism, plays a vital role in shaping democratic debate online. Yet automated content moderation systems, increasingly powered by large language models (LLMs), may struggle to distinguish such resistance from the sexism it opposes. This study examines how five LLMs classify sexist, anti-sexist, and neutral political tweets from the UK, focusing on high-salience trigger events involving female Members of Parliament in the year 2022. Our analysis show that models frequently misclassify anti-sexist speech as harmful, particularly during politically charged events where rhetorical styles of harm and resistance converge. These errors risk silencing those who challenge sexism, with disproportionate consequences for marginalised voices. We argue that moderation design must move beyond binary harmful/not-harmful schemas, integrate human-in-the-loop review during sensitive events, and explicitly include counter-speech in training data. By linking feminist scholarship, event-based analysis, and model evaluation, this work highlights the sociotechnical challenges of safeguarding resistance speech in digital political spaces.

Ссылки и действия