Anecdoctoring: Automated Red-Teaming Across Language and Place
2509.19143v1
cs.CL, cs.AI, cs.CY
2025-09-25
Авторы:
Alejandro Cuevas, Saloni Dash, Bharat Kumar Nayak, Dan Vann, Madeleine I. G. Daepp
Резюме на русском
## Контекст
Генерирующие модели ИИ, такие как текстовые генераторы текста, становятся все более популярными и применяются в различных областях, от творчества до управления бизнесом. Однако их широкое распространение также сопрягается с рисками, в том числе использованием для распространения дезинформации. Это представляет собой значительную угрозу для общества, особенно в международном масштабе.
Существуют технические средства, такие как регулирование и моделирование, которые пытаются справиться с этой проблемой. Тем не менее, многие из них ориентированы на конкретные языки и культуры, что приводит к несоответствию в разных регионах. Это оставляет многие регионы без эффективных средств для защиты от дезинформации.
В данной работе мы предлагаем "анекдотическое ред-теминг" (anecdoctoring) — методику, которая автоматически генерирует атакующие запросы в различных языках и культурах. Мы создаем наборы данных нефактурных утверждений из разных стран и языков, чтобы сформировать универсальный подход к защите от дезинформации.
## Метод
Мы используем метод анекдотического ред-теминга, который состоит из нескольких этапов. В начале мы собираем нефактурные утверждения из популярных факт-чеккинг-сайтов в трех языках (английский, испанский, и хинди) и двух регионах (США и Индия). Эти утверждения агрегируются в кластеры, основываясь на общих темах и факторных моделях.
Затем, для каждого кластера мы создаем знаний граф, который включает в себя связанные с ним факты и контекст. Эти знаний графы используются для обучения атакующей генерирующей модели ИИ, которая генерирует адверские запросы к модели.
Мы проверяем эффективность нашего подхода с помощью тестов на различных моделях, включая GPT-3 и другие текстовые генераторы. Мы измеряем успешность атаки на основе вероятности ложности и полноты ответов.
## Результаты
Мы проводим ряд экспериментов, чтобы проверить то, насколько эффективно работает наш подход. Мы протестировали наши методы на нефактурных утверждениях из разных регионов и языков.
Мы обнаружили, что наш метод показывает высокую успешность атаки, значительно превосходя методы, основанные на пару-пробегах. Также мы обнаружили, что наш подход дает более подробный анализ ложных утверждений, позволяя понять, почему они считаются ложными.
## Значимость
Наш подход имеет широкие применения в области защиты от дезинформации. Он может использоваться для создания эффективных средств мониторинга и защиты от ложных утверждений
Abstract
Disinformation is among the top risks of generative artificial intelligence
(AI) misuse. Global adoption of generative AI necessitates red-teaming
evaluations (i.e., systematic adversarial probing) that are robust across
diverse languages and cultures, but red-teaming datasets are commonly US- and
English-centric. To address this gap, we propose "anecdoctoring", a novel
red-teaming approach that automatically generates adversarial prompts across
languages and cultures. We collect misinformation claims from fact-checking
websites in three languages (English, Spanish, and Hindi) and two geographies
(US and India). We then cluster individual claims into broader narratives and
characterize the resulting clusters with knowledge graphs, with which we
augment an attacker LLM. Our method produces higher attack success rates and
offers interpretability benefits relative to few-shot prompting. Results
underscore the need for disinformation mitigations that scale globally and are
grounded in real-world adversarial misuse.
Ссылки и действия
Дополнительные ресурсы: