Evaluating Large Language Models for Detecting Antisemitism
2509.18293v1
cs.CL, cs.AI, cs.CY
2025-09-25
Авторы:
Jay Patel, Hrudayangam Mehta, Jeremy Blackburn
Резюме на русском
--------------------------------------------------------------------------------------------------------------------------
## Контекст
Детектирование ненавистного контента является важной и сложной задачей в современной цифровой среде. Автоматизированные системы, такие как машинное обучение, могут помочь в этом, но требуют непрерывного обновления для адаптации к быстро меняющемуся социальному ландшафту. Антисемитизм, как одна из форм ненависти, требует особого внимания из-за его постоянного проявления в цифровых пространствах. Однако традиционные методы могут быть неэффективны в учёте сложности и субъективности этой проблемы. В данном исследовании предлагается использовать бо LLM (большой языковой модель) для обнаружения антисемитизма, а также изучить способность LLMs в осмыслении различных политических норм и политического определения.
--------------------------------------------------------------------------------------------------------------------------
## Метод
Для оценки LLMs (Large Language Models) в области детектирования антисемитизма были использованы восемь открытых моделей. Исследование включает оптимизацию подходов к архитектуре моделей и техникам ведения контекста. Для улучшения результатов в рамках определения политики антисемитизма была разработана новая методика, названная Guided-CoT (Guided Chain of Thought). Эта методика обеспечивает гибкое управление контекстом и подачей политических определений в модель. Модели были оценены на различных наборах данных, включая обученные и тестовые данные, с различными уровнями сложности. Мы также исследовали множество вариантов запросов, чтобы определить, какие техники ведения контекста дают наилучший результат.
--------------------------------------------------------------------------------------------------------------------------
## Результаты
Проведенные эксперименты показали, что Guided-CoT значительно улучшает производительность LLMs в задаче детектирования антисемитизма. Модель Llama 3.1 70B показала высокую эффективность, находясь сверху в ряду, даже несмотря на отсутствие дополнительного файна-тюнинга. Было выявлено, что LLM модели с большой мощностью вычислений могут лучше работать с контекстом, чем модели с меньшей мощностью. Однако, даже среди моделей с одинаковой мощностью, разница в показателях зависит от техники ведения контекста и оптимизации. Также было выявлено, что некоторые модели демонстрируют нерегулярности в поведении, в том числе потенциально парадоксальные результаты в зависимости от контекста.
--------------------------------------------------------------------------------------------------------------------------
## Значимость
Результаты этого исследования имеют значимые последствия для применения LLMs в области мониторинга содержимого в социальных сетях. Они могут быть использованы для расширения возможностей детектирования ненавистного контента, в том числе антисемитизма, в реальном времени. Благодаря новой методике Guided-CoT модели могут более точно и эффективно рассматривать контекст
Abstract
Detecting hateful content is a challenging and important problem. Automated
tools, like machine-learning models, can help, but they require continuous
training to adapt to the ever-changing landscape of social media. In this work,
we evaluate eight open-source LLMs' capability to detect antisemitic content,
specifically leveraging in-context definition as a policy guideline. We explore
various prompting techniques and design a new CoT-like prompt, Guided-CoT.
Guided-CoT handles the in-context policy well, increasing performance across
all evaluated models, regardless of decoding configuration, model sizes, or
reasoning capability. Notably, Llama 3.1 70B outperforms fine-tuned GPT-3.5.
Additionally, we examine LLM errors and introduce metrics to quantify semantic
divergence in model-generated rationales, revealing notable differences and
paradoxical behaviors among LLMs. Our experiments highlight the differences
observed across LLMs' utility, explainability, and reliability.
Ссылки и действия
Дополнительные ресурсы: