Anecdoctoring: Automated Red-Teaming Across Language and Place

2509.19143v1 cs.CL, cs.AI, cs.CY 2025-09-25
Авторы:

Alejandro Cuevas, Saloni Dash, Bharat Kumar Nayak, Dan Vann, Madeleine I. G. Daepp

Резюме на русском

## Контекст Генерирующие модели ИИ, такие как текстовые генераторы текста, становятся все более популярными и применяются в различных областях, от творчества до управления бизнесом. Однако их широкое распространение также сопрягается с рисками, в том числе использованием для распространения дезинформации. Это представляет собой значительную угрозу для общества, особенно в международном масштабе. Существуют технические средства, такие как регулирование и моделирование, которые пытаются справиться с этой проблемой. Тем не менее, многие из них ориентированы на конкретные языки и культуры, что приводит к несоответствию в разных регионах. Это оставляет многие регионы без эффективных средств для защиты от дезинформации. В данной работе мы предлагаем "анекдотическое ред-теминг" (anecdoctoring) — методику, которая автоматически генерирует атакующие запросы в различных языках и культурах. Мы создаем наборы данных нефактурных утверждений из разных стран и языков, чтобы сформировать универсальный подход к защите от дезинформации. ## Метод Мы используем метод анекдотического ред-теминга, который состоит из нескольких этапов. В начале мы собираем нефактурные утверждения из популярных факт-чеккинг-сайтов в трех языках (английский, испанский, и хинди) и двух регионах (США и Индия). Эти утверждения агрегируются в кластеры, основываясь на общих темах и факторных моделях. Затем, для каждого кластера мы создаем знаний граф, который включает в себя связанные с ним факты и контекст. Эти знаний графы используются для обучения атакующей генерирующей модели ИИ, которая генерирует адверские запросы к модели. Мы проверяем эффективность нашего подхода с помощью тестов на различных моделях, включая GPT-3 и другие текстовые генераторы. Мы измеряем успешность атаки на основе вероятности ложности и полноты ответов. ## Результаты Мы проводим ряд экспериментов, чтобы проверить то, насколько эффективно работает наш подход. Мы протестировали наши методы на нефактурных утверждениях из разных регионов и языков. Мы обнаружили, что наш метод показывает высокую успешность атаки, значительно превосходя методы, основанные на пару-пробегах. Также мы обнаружили, что наш подход дает более подробный анализ ложных утверждений, позволяя понять, почему они считаются ложными. ## Значимость Наш подход имеет широкие применения в области защиты от дезинформации. Он может использоваться для создания эффективных средств мониторинга и защиты от ложных утверждений

Abstract

Disinformation is among the top risks of generative artificial intelligence (AI) misuse. Global adoption of generative AI necessitates red-teaming evaluations (i.e., systematic adversarial probing) that are robust across diverse languages and cultures, but red-teaming datasets are commonly US- and English-centric. To address this gap, we propose "anecdoctoring", a novel red-teaming approach that automatically generates adversarial prompts across languages and cultures. We collect misinformation claims from fact-checking websites in three languages (English, Spanish, and Hindi) and two geographies (US and India). We then cluster individual claims into broader narratives and characterize the resulting clusters with knowledge graphs, with which we augment an attacker LLM. Our method produces higher attack success rates and offers interpretability benefits relative to few-shot prompting. Results underscore the need for disinformation mitigations that scale globally and are grounded in real-world adversarial misuse.

Ссылки и действия