PersonaTeaming: Exploring How Introducing Personas Can Improve Automated AI Red-Teaming
2509.03728v2
cs.AI, cs.HC
2025-09-08
Авторы:
Wesley Hanwen Deng, Sunnie S. Y. Kim, Akshita Jha, Ken Holstein, Motahhare Eslami, Lauren Wilcox, Leon A Gatys
Резюме на русском
## Контекст
Актуальные исследования в области управления ИИ и его безопасности направлены на развитие методов, позволяющих эффективно выявлять потенциальные риски, связанные с использованием ИИ. Одним из ключевых аспектов является вопрос о том, как особенности идентичности и фоновых характеристик человеческих красных команд способствуют развитию различных стратегий красного тестирования и, в итоге, выявлению разных типов рисков. Хотя автоматизированные методы красного тестирования могут повысить масштабируемость и эффективность работы, они до сих пор не принимают во внимание факторы, связанные с идентичностью человека. Данная работа является первым шагом в интеграции фактора идентичности в автоматизированные методы красного тестирования.
## Метод
Метод PersonaTeaming вводит понятие "персона" в процесс генерирования адверских запросов для улучшения методов красного тестирования. Он включает в себя два основных элемента: 1) методологию мутации запросов на основе различных типов персон — "красных командных экспертов" и "регулярных пользователей AI", и 2) динамический алгоритм генерирования персон, который адаптируется к конкретным семантическим особенностям запроса. Также были разработаны новые метрики для измерения "расстояния мутации", которое позволяет измерить степень изменений в запросах.
## Результаты
Эксперименты показали, что использование PersonaTeaming приводит к значительному увеличению успешности атак (до 144.1%), сохраняя при этом разнообразие запросов. Это выполняется благодаря тому, что персоны позволяют сформировать более широкий спектр адверских стратегий. Важно отметить, что разные типы персон и мутационные методы оказывают разные влияния на результаты, что подчеркивает важность дальнейшего исследования и анализа этих факторов.
## Значимость
Метод PersonaTeaming может быть применен в различных сферах, где необходимо эффективно выявлять риски, связанные с использованием ИИ. Его основное преимущество заключается в том, что он дает возможность исследовать новые адверские стратегии, которые могут быть пропущены другими методами. Это может привести к более глубокому пониманию рисков и к развитию более надежных систем ИИ.
## Выводы
Результаты опытов показали, что PersonaTeaming значительно повышает эффективность автоматизированных методов красного тестирования, улучшая масштабируемость и гибкость. В будущем необходимо продолжить исследования, направленные на совершенствование методов интеграции персон в адверские процессы тестирования ИИ.
Abstract
Recent developments in AI governance and safety research have called for
red-teaming methods that can effectively surface potential risks posed by AI
models. Many of these calls have emphasized how the identities and backgrounds
of red-teamers can shape their red-teaming strategies, and thus the kinds of
risks they are likely to uncover. While automated red-teaming approaches
promise to complement human red-teaming by enabling larger-scale exploration of
model behavior, current approaches do not consider the role of identity. As an
initial step towards incorporating people's background and identities in
automated red-teaming, we develop and evaluate a novel method, PersonaTeaming,
that introduces personas in the adversarial prompt generation process to
explore a wider spectrum of adversarial strategies. In particular, we first
introduce a methodology for mutating prompts based on either "red-teaming
expert" personas or "regular AI user" personas. We then develop a dynamic
persona-generating algorithm that automatically generates various persona types
adaptive to different seed prompts. In addition, we develop a set of new
metrics to explicitly measure the "mutation distance" to complement existing
diversity measurements of adversarial prompts. Our experiments show promising
improvements (up to 144.1%) in the attack success rates of adversarial prompts
through persona mutation, while maintaining prompt diversity, compared to
RainbowPlus, a state-of-the-art automated red-teaming method. We discuss the
strengths and limitations of different persona types and mutation methods,
shedding light on future opportunities to explore complementarities between
automated and human red-teaming approaches.
Ссылки и действия
Дополнительные ресурсы: