Evaluating Large Language Models for Detecting Antisemitism

2509.18293v1 cs.CL, cs.AI, cs.CY 2025-09-25
Авторы:

Jay Patel, Hrudayangam Mehta, Jeremy Blackburn

Резюме на русском

-------------------------------------------------------------------------------------------------------------------------- ## Контекст Детектирование ненавистного контента является важной и сложной задачей в современной цифровой среде. Автоматизированные системы, такие как машинное обучение, могут помочь в этом, но требуют непрерывного обновления для адаптации к быстро меняющемуся социальному ландшафту. Антисемитизм, как одна из форм ненависти, требует особого внимания из-за его постоянного проявления в цифровых пространствах. Однако традиционные методы могут быть неэффективны в учёте сложности и субъективности этой проблемы. В данном исследовании предлагается использовать бо LLM (большой языковой модель) для обнаружения антисемитизма, а также изучить способность LLMs в осмыслении различных политических норм и политического определения. -------------------------------------------------------------------------------------------------------------------------- ## Метод Для оценки LLMs (Large Language Models) в области детектирования антисемитизма были использованы восемь открытых моделей. Исследование включает оптимизацию подходов к архитектуре моделей и техникам ведения контекста. Для улучшения результатов в рамках определения политики антисемитизма была разработана новая методика, названная Guided-CoT (Guided Chain of Thought). Эта методика обеспечивает гибкое управление контекстом и подачей политических определений в модель. Модели были оценены на различных наборах данных, включая обученные и тестовые данные, с различными уровнями сложности. Мы также исследовали множество вариантов запросов, чтобы определить, какие техники ведения контекста дают наилучший результат. -------------------------------------------------------------------------------------------------------------------------- ## Результаты Проведенные эксперименты показали, что Guided-CoT значительно улучшает производительность LLMs в задаче детектирования антисемитизма. Модель Llama 3.1 70B показала высокую эффективность, находясь сверху в ряду, даже несмотря на отсутствие дополнительного файна-тюнинга. Было выявлено, что LLM модели с большой мощностью вычислений могут лучше работать с контекстом, чем модели с меньшей мощностью. Однако, даже среди моделей с одинаковой мощностью, разница в показателях зависит от техники ведения контекста и оптимизации. Также было выявлено, что некоторые модели демонстрируют нерегулярности в поведении, в том числе потенциально парадоксальные результаты в зависимости от контекста. -------------------------------------------------------------------------------------------------------------------------- ## Значимость Результаты этого исследования имеют значимые последствия для применения LLMs в области мониторинга содержимого в социальных сетях. Они могут быть использованы для расширения возможностей детектирования ненавистного контента, в том числе антисемитизма, в реальном времени. Благодаря новой методике Guided-CoT модели могут более точно и эффективно рассматривать контекст

Abstract

Detecting hateful content is a challenging and important problem. Automated tools, like machine-learning models, can help, but they require continuous training to adapt to the ever-changing landscape of social media. In this work, we evaluate eight open-source LLMs' capability to detect antisemitic content, specifically leveraging in-context definition as a policy guideline. We explore various prompting techniques and design a new CoT-like prompt, Guided-CoT. Guided-CoT handles the in-context policy well, increasing performance across all evaluated models, regardless of decoding configuration, model sizes, or reasoning capability. Notably, Llama 3.1 70B outperforms fine-tuned GPT-3.5. Additionally, we examine LLM errors and introduce metrics to quantify semantic divergence in model-generated rationales, revealing notable differences and paradoxical behaviors among LLMs. Our experiments highlight the differences observed across LLMs' utility, explainability, and reliability.

Ссылки и действия