LLM Robustness Leaderboard v1 --Technical report
2508.06296v1
cs.AI, cs.LG
2025-08-12
Авторы:
Pierre Peigné - Lefebvre, Quentin Feuillade-Montixi, Tom David, Nicolas Miailhe
Резюме на русском
## Контекст
Современные текстовые генерирующие модели языков (LLM) широко используются в различных областях, от систем поддержки решений до улучшения пользовательского опыта. Однако эти модели чувствительны к недостаткам в обучении и оценке, которые могут привести к появлению уязвимостей. Одним из ключевых аспектов, требующих изучения, является **robustness** (надёжность), которая относится к способности модели выдержать различные виды атак и недопустимых входных данных. Несмотря на то, что существуют многочисленные методы проверки и оценки устойчивости моделей, существует необходимость в систематической и автоматизированной оценке, чтобы улучшить понимание потенциальных уязвимостей и способах их преодоления. Этой необходимости учитывается в рамках работы над LLM Robustness Leaderboard v1.
## Метод
Для оценки устойчивости LLM была разработана **PRISM Eval Behavior Elicitation Tool (BET)** – система, выполняющая автоматизированные атаки с помощью **Dynamic Adversarial Optimization**. Этот подход позволяет автоматически генерировать входные данные, нацеленные на вывод модели в желаемое состояние. Модель BET использует алгоритмы градиентного поиска и эволюционного программирования для оптимизации внедрения вредоносных входных данных. Она протестирована против 41 моделей лидирующих в своей области, и оказалась успешной в 100% случаев против 37 из них. Дополнительно, в качестве метрики была предложена **Average Attempts to Harm (AATH)**, которая измеряет количество попыток, необходимых для вызвать вредоносный результат. Эта метрика позволяет понять, насколько легко можно использовать хакерские техники для нарушения модели.
## Результаты
Были проведены многочисленные эксперименты с различными моделями, включая самые популярные и наиболее точные существующие в момент выполнения исследования. При помощи BET удалось выявить сильные уязвимости в большинстве моделей. Результаты показали, что некоторые модели требуют более 300 попыток, чтобы внедрить вредоносный вход. Несмотря на то, что все модели оказались уязвимыми, наблюдалось разное время возникновения вредоносных результатов. Это отличает метод BET от простых бинарных метрик, позволяя получить более тонкую оценку устойчивости. Использование новых методов **primitive-level vulnerability analysis** позволило классифицировать типы хакерских техник, которые работают лучше для конкретных категорий уязвимостей.
## Значимость
Результаты этого работы имеют практическое значение для развития искусственного интеллекта. Они подтверждают, что любые LLM, независимо от их размера или точности, могут быть ослаблены в условиях атак. Метод BET может быть использован как средство для провед
Abstract
This technical report accompanies the LLM robustness leaderboard published by
PRISM Eval for the Paris AI Action Summit. We introduce PRISM Eval Behavior
Elicitation Tool (BET), an AI system performing automated red-teaming through
Dynamic Adversarial Optimization that achieves 100% Attack Success Rate (ASR)
against 37 of 41 state-of-the-art LLMs. Beyond binary success metrics, we
propose a fine-grained robustness metric estimating the average number of
attempts required to elicit harmful behaviors, revealing that attack difficulty
varies by over 300-fold across models despite universal vulnerability. We
introduce primitive-level vulnerability analysis to identify which jailbreaking
techniques are most effective for specific hazard categories. Our collaborative
evaluation with trusted third parties from the AI Safety Network demonstrates
practical pathways for distributed robustness assessment across the community.
Ссылки и действия
Дополнительные ресурсы: