Online Anti-sexist Speech: Identifying Resistance to Gender Bias in Political Discourse
2508.11434v1
cs.CL, cs.CY
2025-08-19
Авторы:
Aditi Dutta, Susan Banducci
Резюме на русском
#### Контекст
Говорение против сексизма (антисексизм), то есть общественные высказывания, которые выступают против женского насилия и сексизма, играют ключевую роль в формировании демократических дебатов в онлайн-среде. Однако системы автоматического модерации содержимого, основанные на крупных языковых моделях (LLMs), часто сталкиваются с трудностями в различении этого антисексизма от текстов, содержащих сексизм. Это исследование рассматривает пять лидирующих LLMs и их возможность классифицировать твиты в государственном языке Великобритании, которые были высказаны в 2022 году, в контексте высокозначимых политических событий, в которых гендерная биаса присутствовал. Авторы подчеркивают, что многие модели часто неправильно классифицируют антисексизм как агрессивные или злонамеренные высказывания, что может привести к тому, что онлайн-среде негативно относятся к лицам, которые выступают против сексизма. Основной мотивацией для этого исследования является понимание, как модели анализируют подобные тексты и как это может повлиять на возможность людей высказывать свое мнение в интернете.
#### Метод
Для этого исследования были использованы твиты, высказанные в 2022 году в Великобритании, в контексте высокозначимых политических событий. Авторы проанализировали пять крупных языковых моделей, распределив твиты в категории «антисексизм», «сексизм» и «средний уровень содержания». На основе этих данных авторы выявили, как LLMs классифицируют тексты, содержащие антисексизм, и проанализировали возможность моделей видеть разницу между антисексизмом и сексизмом. Это был проведен структурированный анализ текстов, что позволило выявить наиболее часто встречающиеся ошибки классификации.
#### Результаты
Экспериментальные результаты показали, что LLMs часто преобразуют антисексизм в злонамеренные высказывания. Это в основном происходит в текстах, где выражение антисексизма и сексизма перекликаются. Такие результаты приводят к ситуации, когда лица, высказывающиеся против сексизма, могут быть недооценены или недооцененные. Лица, которые выступают против сексизма, часто получают отрицательную реакцию в онлайн-среде, что может привести к тому, что они будут недооцениваться и недооцениваться. Ошибки классификации LLMs могут привести к недооценке личностей, выступающих против сексизма, и к понижению уровня уважения к их мнениям.
#### Значимость
Эти представления имеют важное значение в сфере модерации содержимого в Интернете. Выявление ошибок в классификации текстов,
Abstract
Anti-sexist speech, i.e., public expressions that challenge or resist
gendered abuse and sexism, plays a vital role in shaping democratic debate
online. Yet automated content moderation systems, increasingly powered by large
language models (LLMs), may struggle to distinguish such resistance from the
sexism it opposes. This study examines how five LLMs classify sexist,
anti-sexist, and neutral political tweets from the UK, focusing on
high-salience trigger events involving female Members of Parliament in the year
2022. Our analysis show that models frequently misclassify anti-sexist speech
as harmful, particularly during politically charged events where rhetorical
styles of harm and resistance converge. These errors risk silencing those who
challenge sexism, with disproportionate consequences for marginalised voices.
We argue that moderation design must move beyond binary harmful/not-harmful
schemas, integrate human-in-the-loop review during sensitive events, and
explicitly include counter-speech in training data. By linking feminist
scholarship, event-based analysis, and model evaluation, this work highlights
the sociotechnical challenges of safeguarding resistance speech in digital
political spaces.
Ссылки и действия
Дополнительные ресурсы: