Automatic LLM Red Teaming

2508.04451v1 cs.LG, cs.AI 2025-08-09
Авторы:

Roman Belaire, Arunesh Sinha, Pradeep Varakantham

Резюме на русском

## КОНТЕКСТ И ПРОБЛЕМАТИКА Ред тимминг (red teaming) является критически важным процессом для выявления уязвимостей в текущих моделях машинного обучения, в том числе в Large Language Models (LLMs). Эти модели широко используются в различных приложениях, что повышает требования к их надежности и безопасности. Однако существующие автоматизированные методы ред тимминга для LLMs основываются на хрупких шаблонах запросов (prompt templates) или однократных атаках (single-turn attacks), что не позволяет полноценно охватить сложность интерактивных, реальных атак. Традиционные методы часто не учитывают динамические, многошаговые взаимодействия, которые могут возникновением в реальных сценариях использования. Кроме того, существующие подходы сталкиваются с трудностями, связанными со спарсными наградами (sparse rewards) и длительными горизонтами взаимодействия (long-horizon challenges), что ограничивает их эффективность. Необходимо разработать более продвинутый и адаптивный подход, способный обнаруживать тонкие уязвимости, которые могут быть пропущены существующими методами. Таким образом, целью данного исследования является создание нового парадигматического подхода к ред тиммингу LLMs, который бы учитывал их динамическую природу и позволял бы обнаруживать более сложные уязвимости. Это необходимо для обеспечения безопасного и надежного развертывания моделей ИИ в реальных условиях. ## ПРЕДЛОЖЕННЫЙ МЕТОД В данной статье предлагается инновационный подход к ред тиммингу LLMs, основанный на формализации процесса как Марковский процесс принятия решений (Markov Decision Process, MDP) и применении иерархического Reinforcement Learning (RL). Этот подход позволяет обучить агента, который стратегически «ломает» другой ИИ, используя многошаговые атаки. Авторы предлагают использовать иерархическую структуру RL, где верхний уровень отвечает за выбор общей стратегии атаки, а нижний уровень фокусируется на тонких, токено-ориентированных изменениях, которые могут привести к вредным последствиям. Для обучения агента используется наградная функция, основанная на токенах, которая позволяет оценивать вредность действий на более детальном уровне. Ключевой момент данного подхода заключается в том, что он рассматривает ред тимминг как динамический, траекторийный процесс, а не как однократный тест. Это позволяет обнаруживать более сложные и подтаивающиеся уязвимости, которые могут быть пропущены при использовании традиционных методов. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для оценки эффективности предложенного метода проведены эксперименты с использованием различных наборов данных и моделей LLMs. Авторы сравнили результаты существующих базовых методов с тем, что было получено с использованием их нового подхода. Результаты показали, что предложенный метод способен обнаруживать гораздо более тонкие и сложные уязвимости, которые не были выявлены при использовании традиционных методов. Благодаря токено-ориентированной наградной функции, агент может выявлять тонкие изменения в поведении модели, которые могут привести к негативным последствиям. Кроме того, эксперименты показали, что иерархическая структура RL позволяет обучить агента выполнять многошаговые атаки, которые более эффективны в выявлении уязвимостей, чем однократные атаки. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предложенный метод имеет широкое применение в области безопасности и надежности моделей ИИ. Он может быть использован для обнаружения уязвимостей в различных моделях LLMs, что в свою очередь позволяет улучшить их безопасность и надежность перед развертыванием в реальных условиях. Данный подход также может быть применен для тестирования и оптимизации других моделей ИИ, где важно обеспечить высокий уровень безопасности и надежности. Потенциальное влияние этого метода может быть огромным, так как он позволяет создавать более надежные и безопасные системы ИИ, которые могут быть использованы в критически важных приложениях. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В рамках данного исследования был разработан новый подход к ред тиммингу LLMs, основанный на формализации процесса как MDP и применении иерархического RL. Этот подход позволяет обнаруживать более сложные и тонкие уязвимости, которые могут быть пропущены традиционными методами. Будущие исследования могут фокусироваться на дальнейшем улучшении этого подхода, в том числе на разработке более эффективных наградных функций и методов обучения агентов. Кроме того, можно рассмотреть возможность применения этого подхода к другим типам моделей ИИ, чтобы обеспечить более широкое использование этой технологии.

Abstract

Red teaming is critical for identifying vulnerabilities and building trust in current LLMs. However, current automated methods for Large Language Models (LLMs) rely on brittle prompt templates or single-turn attacks, failing to capture the complex, interactive nature of real-world adversarial dialogues. We propose a novel paradigm: training an AI to strategically `break' another AI. By formalizing red teaming as a Markov Decision Process (MDP) and employing a hierarchical Reinforcement Learning (RL) framework, we effectively address the inherent sparse reward and long-horizon challenges. Our generative agent learns coherent, multi-turn attack strategies through a fine-grained, token-level harm reward, enabling it to uncover subtle vulnerabilities missed by existing baselines. This approach sets a new state-of-the-art, fundamentally reframing LLM red teaming as a dynamic, trajectory-based process (rather than a one-step test) essential for robust AI deployment.

Ссылки и действия