LLM Robustness Leaderboard v1 --Technical report

2508.06296v1 cs.AI, cs.LG 2025-08-12

Авторы:

Pierre Peigné - Lefebvre, Quentin Feuillade-Montixi, Tom David, Nicolas Miailhe

Резюме на русском

## Контекст Современные текстовые генерирующие модели языков (LLM) широко используются в различных областях, от систем поддержки решений до улучшения пользовательского опыта. Однако эти модели чувствительны к недостаткам в обучении и оценке, которые могут привести к появлению уязвимостей. Одним из ключевых аспектов, требующих изучения, является **robustness** (надёжность), которая относится к способности модели выдержать различные виды атак и недопустимых входных данных. Несмотря на то, что существуют многочисленные методы проверки и оценки устойчивости моделей, существует необходимость в систематической и автоматизированной оценке, чтобы улучшить понимание потенциальных уязвимостей и способах их преодоления. Этой необходимости учитывается в рамках работы над LLM Robustness Leaderboard v1. ## Метод Для оценки устойчивости LLM была разработана **PRISM Eval Behavior Elicitation Tool (BET)** – система, выполняющая автоматизированные атаки с помощью **Dynamic Adversarial Optimization**. Этот подход позволяет автоматически генерировать входные данные, нацеленные на вывод модели в желаемое состояние. Модель BET использует алгоритмы градиентного поиска и эволюционного программирования для оптимизации внедрения вредоносных входных данных. Она протестирована против 41 моделей лидирующих в своей области, и оказалась успешной в 100% случаев против 37 из них. Дополнительно, в качестве метрики была предложена **Average Attempts to Harm (AATH)**, которая измеряет количество попыток, необходимых для вызвать вредоносный результат. Эта метрика позволяет понять, насколько легко можно использовать хакерские техники для нарушения модели. ## Результаты Были проведены многочисленные эксперименты с различными моделями, включая самые популярные и наиболее точные существующие в момент выполнения исследования. При помощи BET удалось выявить сильные уязвимости в большинстве моделей. Результаты показали, что некоторые модели требуют более 300 попыток, чтобы внедрить вредоносный вход. Несмотря на то, что все модели оказались уязвимыми, наблюдалось разное время возникновения вредоносных результатов. Это отличает метод BET от простых бинарных метрик, позволяя получить более тонкую оценку устойчивости. Использование новых методов **primitive-level vulnerability analysis** позволило классифицировать типы хакерских техник, которые работают лучше для конкретных категорий уязвимостей. ## Значимость Результаты этого работы имеют практическое значение для развития искусственного интеллекта. Они подтверждают, что любые LLM, независимо от их размера или точности, могут быть ослаблены в условиях атак. Метод BET может быть использован как средство для провед

Abstract

This technical report accompanies the LLM robustness leaderboard published by PRISM Eval for the Paris AI Action Summit. We introduce PRISM Eval Behavior Elicitation Tool (BET), an AI system performing automated red-teaming through Dynamic Adversarial Optimization that achieves 100% Attack Success Rate (ASR) against 37 of 41 state-of-the-art LLMs. Beyond binary success metrics, we propose a fine-grained robustness metric estimating the average number of attempts required to elicit harmful behaviors, revealing that attack difficulty varies by over 300-fold across models despite universal vulnerability. We introduce primitive-level vulnerability analysis to identify which jailbreaking techniques are most effective for specific hazard categories. Our collaborative evaluation with trusted third parties from the AI Safety Network demonstrates practical pathways for distributed robustness assessment across the community.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

LLM Robustness Leaderboard v1 --Technical report

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Mathematical Framing for Different Agent Strategies

Sequential Enumeration in Large Language Models

Educational Cone Model in Embedding Vector Spaces

A Benchmark of Causal vs Correlation AI for Predictive Maintenance

fMRI2GES: Co-speech Gesture Reconstruction from fMRI Signal with Dual Brain Deco...

Навигация