📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Confident, Calibrated, or Complicit: Probing the Trade-offs between Safety Alignment and Ideological Bias in Language Models in Detecting Hate Speech

2025-09-05

Авторы:

Sanjeeevan Selvaganapathy, Mehwish Nasim

## Контекст Область исследования включает в себя анализ поведения Больших Языковых Моделей (БЯМ) при обнаружении ненависти выраженной в тексте. Это тема значимости в связи с ростом цифровых текстов, где модели используются для классификации и мониторинга ненависти в социальных сетях. Несмотря на улучшение моделей, остаются проблемы, такие как отсутствие нейтральности и уязвимость к идеологическим фреймворкам. Эти проблемы подрывают доверие к моделям, делая критически важным изучение того, насколько модели сохраняют объективность при оценке ненависти. Наше исследование фокусируется на понимании этого баланса: на степени независимости моделей от безопасности и их вклад в личностные фреймы. ## Метод Мы использовали три типа БЯМ: традиционно обученные, "независимые" (без безопасности) и "зависимые" (сильно нацеленные на безопасность). Каждая модель проверялась на двух типах задач: открытого и скрытого ненависти. Данные были подготовлены из широкого набора источников, включая социальные сети, книги и публикации новостей. Мы проанализировали степень уверенности моделей в конкретных классификационных выводах, исследовали уровень идеологической биаса и проверяли на различных группах лиц. ## Результаты Выяснилось, что зависимые модели (сильно нацеленные на безопасность) демонстрируют высокую точность в обнаружении ненависти — 78,7%, в то время как независимые модели достигли только 64,1%. Однако сильно нацеленные модели показали сильную устойчивость к идеологическим влияниям и оказались более склонны к честности в классификации. Независимые модели, с другой стороны, проявили высокую гибкость под влиянием личностных фреймов, что привело к несогласованности в их классификации. Также проанализировались ситуации, в которых модели ошибались, особенно при интерпретации ненависти в контексте. ## Значимость Наша исследовательская работа имеет решающее значение в нескольких сферах. Во-первых, она помогает определить наиболее безопасные практики для использования БЯМ в токсичности и ненависти в цифровых плоскостях. Во-вторых, она указывает на необходимость более сложных моделей, которые могут сочетать высокую точность и универсальность. Третьим, результаты могут обеспечить новые направления в понимании нейтральности и объективности моделей в классификации ненависти. ## Выводы Мы пришли к выводу, что зависимые модели, несмотря на их более честную оценку ненависти, являются более устойчивыми к идеологическим влияниям, в то время как независимые модели

Annotation:

We investigate the efficacy of Large Language Models (LLMs) in detecting implicit and explicit hate speech, examining whether models with minimal safety alignment (uncensored) might provide more objective classification capabilities compared to their heavily-aligned (censored) counterparts. While uncensored models theoretically offer a less constrained perspective free from moral guardrails that could bias classification decisions, our results reveal a surprising trade-off: censored models signi...

ID: 2509.00673v1 cs.CL, cs.AI, cs.IR, I.2.7; I.6

arXiv PDF