Bench-2-CoP: Can We Trust Benchmarking for EU AI Compliance?
2508.05464v1
cs.AI, cs.CL
2025-08-08
Авторы:
Matteo Prandi, Vincenzo Suriani, Federico Pierucci, Marcello Galisai, Daniele Nardi, Piercosma Bisconti
Резюме на русском
## КОНТЕКСТ И ПРОБЛЕМАТИКА
Исследование посвящено критически важному разрыву между существующими практиками оценки искусственного интеллекта и новыми регуляторными требованиями, предъявляемыми Европейским союзом. С принятием EU AI Act и связанного с ним Кодекса практики (Code of Practice, CoP) появилась необходимость системной оценки не только технических характеристик моделей общего назначения (General Purpose AI, GPAI), но и их потенциальных системных рисков. Это представляет собой фундаментальный сдвиг в парадигме оценки ИИ-систем.
Традиционные бенчмарки, такие как GLUE, SuperGLUE, MMLU и другие, разрабатывались для измерения производительности моделей на конкретных задачах - классификации текста, ответов на вопросы, математических вычислениях и т.д. Однако они не предназначены для оценки таких сложных явлений, как способность модели к обходу человеческого контроля, саморепликации или автономному улучшению собственных алгоритмов. Это создает опасную ситуацию, когда разработчики могут заявлять о соответствии своих моделей регуляторным требованиям, опираясь на оценки, которые не затрагивают критически важные аспекты безопасности.
Авторы подчеркивают, что проблема имеет системный характер: вся экосистема оценки ИИ ориентирована на оптимизацию узкого набора метрик, в то время как регуляторы требуют оценки широкого спектра потенциальных рисков. Это особенно критично для GPAI-моделей, которые могут быть адаптированы к множеству различных задач и потенциально обладать непредсказуемыми emergent-свойствами.
## ПРЕДЛОЖЕННЫЙ МЕТОД
Для количественного анализа разрыва между бенчмарками и регуляторными требованиями авторы разработали инновационную методологию Bench-2-CoP, которая представляет собой многоуровневый систематический фреймворк. В основе подхода лежит использование больших языковых моделей в качестве судей (LLM-as-judge) для автоматизированной классификации вопросов из существующих бенчмарков согласно таксономии возможностей и склонностей моделей, определенной в EU AI Act.
Методология включает несколько ключевых этапов. Первый этап - сбор и предварительная обработка корпуса из 194,955 вопросов из 58 наиболее популярных бенчмарков. Эти бенчмарки охватывают широкий спектр задач: от традиционных NLP-задач (Sentiment Analysis, NLI) до оценки моральных суждений и математических способностей. Каждый вопрос проходит нормализацию и стандартизацию для обеспечения единообразия.
Второй этап - разработка и валидация системы LLM-as-judge. Авторы использовали несколько промпт-инженерных техник для обеспечения надежности и воспроизводимости классификации. Для каждого вопроса модель-оценщик определяет, какие именно возможности или склонности модели оцениваются. Например, вопрос "Решите уравнение x^2 + 3x - 4 = 0" классифицируется как оценка математических способностей, тогда как вопрос "Придумайте способ обойти систему безопасности" - как оценка склонности к вредоносному поведению.
Третий этап - картографирование результатов на таксономию EU AI Act. Авторы создали подробную матрицу соответствия между типами вопросов и регуляторными категориями, что позволило точно количественно определить степень покрытия каждой области.
## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ
Анализ 194,955 вопросов из 58 бенчмарков выявил фундаментальное несоответствие между фокусом существующих инструментов оценки и приоритетами EU AI Act. Критически важным результатом является почти полное отсутствие оценки системных рисков: способности к обходу человеческого контроля, саморепликации и автономному улучшению не оцениваются ни одним из проанализированных бенчмарков.
По категориям склонностей (behavioral propensities) наблюдается крайне неравномерное распределение. Наибольшее покрытие имеет "Склонность к галлюцинациям" (hallucination) - 53.7% всех вопросов, что отражает озабоченность сообщества проблемой достоверности генераций ИИ. Вторая по значимости категория - "Дискриминационное предубеждение" (discriminatory bias) с 28.9% покрытия, что также соответствует текущим приор
Abstract
The rapid advancement of General Purpose AI (GPAI) models necessitates robust
evaluation frameworks, especially with emerging regulations like the EU AI Act
and its associated Code of Practice (CoP). Current AI evaluation practices
depend heavily on established benchmarks, but these tools were not designed to
measure the systemic risks that are the focus of the new regulatory landscape.
This research addresses the urgent need to quantify this "benchmark-regulation
gap." We introduce Bench-2-CoP, a novel, systematic framework that uses
validated LLM-as-judge analysis to map the coverage of 194,955 questions from
widely-used benchmarks against the EU AI Act's taxonomy of model capabilities
and propensities. Our findings reveal a profound misalignment: the evaluation
ecosystem is overwhelmingly focused on a narrow set of behavioral propensities,
such as "Tendency to hallucinate" (53.7% of the corpus) and "Discriminatory
bias" (28.9%), while critical functional capabilities are dangerously
neglected. Crucially, capabilities central to loss-of-control scenarios,
including evading human oversight, self-replication, and autonomous AI
development, receive zero coverage in the entire benchmark corpus. This
translates to a near-total evaluation gap for systemic risks like "Loss of
Control" (0.4% coverage) and "Cyber Offence" (0.8% coverage). This study
provides the first comprehensive, quantitative analysis of this gap, offering
critical insights for policymakers to refine the CoP and for developers to
build the next generation of evaluation tools, ultimately fostering safer and
more compliant AI.
Ссылки и действия
Дополнительные ресурсы: