Bench-2-CoP: Can We Trust Benchmarking for EU AI Compliance?

2508.05464v1 cs.AI, cs.CL 2025-08-08

Авторы:

Matteo Prandi, Vincenzo Suriani, Federico Pierucci, Marcello Galisai, Daniele Nardi, Piercosma Bisconti

Резюме на русском

## КОНТЕКСТ И ПРОБЛЕМАТИКА Исследование посвящено критически важному разрыву между существующими практиками оценки искусственного интеллекта и новыми регуляторными требованиями, предъявляемыми Европейским союзом. С принятием EU AI Act и связанного с ним Кодекса практики (Code of Practice, CoP) появилась необходимость системной оценки не только технических характеристик моделей общего назначения (General Purpose AI, GPAI), но и их потенциальных системных рисков. Это представляет собой фундаментальный сдвиг в парадигме оценки ИИ-систем. Традиционные бенчмарки, такие как GLUE, SuperGLUE, MMLU и другие, разрабатывались для измерения производительности моделей на конкретных задачах - классификации текста, ответов на вопросы, математических вычислениях и т.д. Однако они не предназначены для оценки таких сложных явлений, как способность модели к обходу человеческого контроля, саморепликации или автономному улучшению собственных алгоритмов. Это создает опасную ситуацию, когда разработчики могут заявлять о соответствии своих моделей регуляторным требованиям, опираясь на оценки, которые не затрагивают критически важные аспекты безопасности. Авторы подчеркивают, что проблема имеет системный характер: вся экосистема оценки ИИ ориентирована на оптимизацию узкого набора метрик, в то время как регуляторы требуют оценки широкого спектра потенциальных рисков. Это особенно критично для GPAI-моделей, которые могут быть адаптированы к множеству различных задач и потенциально обладать непредсказуемыми emergent-свойствами. ## ПРЕДЛОЖЕННЫЙ МЕТОД Для количественного анализа разрыва между бенчмарками и регуляторными требованиями авторы разработали инновационную методологию Bench-2-CoP, которая представляет собой многоуровневый систематический фреймворк. В основе подхода лежит использование больших языковых моделей в качестве судей (LLM-as-judge) для автоматизированной классификации вопросов из существующих бенчмарков согласно таксономии возможностей и склонностей моделей, определенной в EU AI Act. Методология включает несколько ключевых этапов. Первый этап - сбор и предварительная обработка корпуса из 194,955 вопросов из 58 наиболее популярных бенчмарков. Эти бенчмарки охватывают широкий спектр задач: от традиционных NLP-задач (Sentiment Analysis, NLI) до оценки моральных суждений и математических способностей. Каждый вопрос проходит нормализацию и стандартизацию для обеспечения единообразия. Второй этап - разработка и валидация системы LLM-as-judge. Авторы использовали несколько промпт-инженерных техник для обеспечения надежности и воспроизводимости классификации. Для каждого вопроса модель-оценщик определяет, какие именно возможности или склонности модели оцениваются. Например, вопрос "Решите уравнение x^2 + 3x - 4 = 0" классифицируется как оценка математических способностей, тогда как вопрос "Придумайте способ обойти систему безопасности" - как оценка склонности к вредоносному поведению. Третий этап - картографирование результатов на таксономию EU AI Act. Авторы создали подробную матрицу соответствия между типами вопросов и регуляторными категориями, что позволило точно количественно определить степень покрытия каждой области. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Анализ 194,955 вопросов из 58 бенчмарков выявил фундаментальное несоответствие между фокусом существующих инструментов оценки и приоритетами EU AI Act. Критически важным результатом является почти полное отсутствие оценки системных рисков: способности к обходу человеческого контроля, саморепликации и автономному улучшению не оцениваются ни одним из проанализированных бенчмарков. По категориям склонностей (behavioral propensities) наблюдается крайне неравномерное распределение. Наибольшее покрытие имеет "Склонность к галлюцинациям" (hallucination) - 53.7% всех вопросов, что отражает озабоченность сообщества проблемой достоверности генераций ИИ. Вторая по значимости категория - "Дискриминационное предубеждение" (discriminatory bias) с 28.9% покрытия, что также соответствует текущим приор

Abstract

The rapid advancement of General Purpose AI (GPAI) models necessitates robust evaluation frameworks, especially with emerging regulations like the EU AI Act and its associated Code of Practice (CoP). Current AI evaluation practices depend heavily on established benchmarks, but these tools were not designed to measure the systemic risks that are the focus of the new regulatory landscape. This research addresses the urgent need to quantify this "benchmark-regulation gap." We introduce Bench-2-CoP, a novel, systematic framework that uses validated LLM-as-judge analysis to map the coverage of 194,955 questions from widely-used benchmarks against the EU AI Act's taxonomy of model capabilities and propensities. Our findings reveal a profound misalignment: the evaluation ecosystem is overwhelmingly focused on a narrow set of behavioral propensities, such as "Tendency to hallucinate" (53.7% of the corpus) and "Discriminatory bias" (28.9%), while critical functional capabilities are dangerously neglected. Crucially, capabilities central to loss-of-control scenarios, including evading human oversight, self-replication, and autonomous AI development, receive zero coverage in the entire benchmark corpus. This translates to a near-total evaluation gap for systemic risks like "Loss of Control" (0.4% coverage) and "Cyber Offence" (0.8% coverage). This study provides the first comprehensive, quantitative analysis of this gap, offering critical insights for policymakers to refine the CoP and for developers to build the next generation of evaluation tools, ultimately fostering safer and more compliant AI.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Bench-2-CoP: Can We Trust Benchmarking for EU AI Compliance?

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Algorithmic Thinking Theory

From Atomic to Composite: Reinforcement Learning Enables Generalization in Compl...

LLM CHESS: Benchmarking Reasoning and Instruction-Following in LLMs through Ches...

DeepSeekMath-V2: Towards Self-Verifiable Mathematical Reasoning

Probing the "Psyche'' of Large Reasoning Models: Understanding Through a Human L...

Навигация