PersonaTeaming: Exploring How Introducing Personas Can Improve Automated AI Red-Teaming
2509.03728v1
cs.AI, cs.HC
2025-09-06
Авторы:
Wesley Hanwen Deng, Sunnie S. Y. Kim, Akshita Jha, Ken Holstein, Motahhare Eslami, Lauren Wilcox, Leon A Gatys
Резюме на русском
#### Контекст
Результаты развития искусственного интеллекта (ИИ) в последние годы вызвали значительные проблемы в области гуманного управления и безопасности. Одним из ключевых аспектов является "красная команда" (red-teaming), которая предназначена для идентификации потенциальных рисков, которые могут быть вызваны ИИ-моделями. Этот подход включает в себя проведение экспериментов с ИИ с целью выявления его уязвимостей. Однако, существующие методы часто ограничиваются человеческим участием и не учитывают личностную идентичность участников, которая может существенно повлиять на подход к проведению красной команды. Данная работа исследует возможность внедрения "личностных ролей" (personas) в автоматизированные методы красной команды, с целью расширения спектра стратегий противодействия потенциальным угрозам.
#### Метод
Метод, представленный в работе, называется **PersonaTeaming**. Он состоит из нескольких ключевых элементов:
1. **Методология для мутации проблемных запросов (prompts):** Авторы предлагают метод, который мутирует проблемные запросы, используя различные "личностные роли" (personas). Эти роли могут быть определены как "красного командера-эксперта" или "регулярного пользователя ИИ".
2. **Динамический алгоритм генерации личностей (personas):** Алгоритм адаптивно генерирует разные личностные роли, которые могут быть применены к различным проблемным запросам для повышения гибкости и эффективности.
3. **Новые метрики для измерения разнообразия и мутации:** Разработаны новые метрики, которые измеряют "расстояние мутации", что позволяет эффективно измерять изменения в проблемных запросах и личностных ролях.
Эти компоненты объединены в единую систему, предназначенную для улучшения методов красной команды через интеграцию личностных ролей.
#### Результаты
Авторы проводили эксперименты, сравнивая **PersonaTeaming** с **RainbowPlus**, современным лидером в области автоматизированной красной команды. Использовались различные тестовые наборы данных для оценки эффективности.
- **Улучшение успешности атак:** Использование **PersonaTeaming** приводит к увеличению успешности атак на ИИ-модели до 144.1%, что значительно превышает результаты RainbowPlus.
- **Сохранение разнообразия запросов:** Хотя PersonaTeaming повышает успешность атак, он также сохраняет разнообразие проблемных запросов, что важно для эффективного анализа моделей.
Эти результаты показывают, что интеграция личностных ролей может значительно улучшить качество красной команды, добавив новые стратегии и перспективы.
#### Значимость
**PersonaTeaming** открывает новые го
Abstract
Recent developments in AI governance and safety research have called for
red-teaming methods that can effectively surface potential risks posed by AI
models. Many of these calls have emphasized how the identities and backgrounds
of red-teamers can shape their red-teaming strategies, and thus the kinds of
risks they are likely to uncover. While automated red-teaming approaches
promise to complement human red-teaming by enabling larger-scale exploration of
model behavior, current approaches do not consider the role of identity. As an
initial step towards incorporating people's background and identities in
automated red-teaming, we develop and evaluate a novel method, PersonaTeaming,
that introduces personas in the adversarial prompt generation process to
explore a wider spectrum of adversarial strategies. In particular, we first
introduce a methodology for mutating prompts based on either "red-teaming
expert" personas or "regular AI user" personas. We then develop a dynamic
persona-generating algorithm that automatically generates various persona types
adaptive to different seed prompts. In addition, we develop a set of new
metrics to explicitly measure the "mutation distance" to complement existing
diversity measurements of adversarial prompts. Our experiments show promising
improvements (up to 144.1%) in the attack success rates of adversarial prompts
through persona mutation, while maintaining prompt diversity, compared to
RainbowPlus, a state-of-the-art automated red-teaming method. We discuss the
strengths and limitations of different persona types and mutation methods,
shedding light on future opportunities to explore complementarities between
automated and human red-teaming approaches.
Ссылки и действия
Дополнительные ресурсы: