Bench-2-CoP: Can We Trust Benchmarking for EU AI Compliance?
2508.05464v2
cs.AI, cs.CL
2025-08-11
Авторы:
Matteo Prandi, Vincenzo Suriani, Federico Pierucci, Marcello Galisai, Daniele Nardi, Piercosma Bisconti
Резюме на русском
Резюме:
## Контекст
Появление General Purpose AI (GPAI) требует эффективных фреймворков для оценки, особенно в свете нормативных требований Европейского Союза, таких как EU AI Act и Code of Practice (CoP). Основными проблемами являются недостатки в существующих методах оценки, не отвечающих новым потребностям регулирования, а именно в сфере учета системных рисков. Одна из основных проблем — "gap" между современными бенчмарками и новой регуляторной терминологией, который необходимо измерить и закрыть. Целью этого исследования является создание автоматизированного подхода для качественного анализа текущих бенчмарков и их соответствия нормативным требованиям.
## Метод
Разработан Bench-2-CoP — новый фреймворк, который использует систему LLM-as-judge для оценки 194,955 вопросов, взятых из широко распространенных бенчмарков, с применением таксономии EU AI Act. Основным заданием этого метода является измерение соответствия реальных сценариев рисков систематическим рискам, определенным в CoP. Основной технический подход заключается в сборе и анализе данных с бенчмарков с использованием глубокого обучения и NLP-технологий для выявления соответствия ключевых сценариев рисков и соответствия регуляторным требованиям.
## Результаты
На основе Bench-2-CoP, проанализированы вопросы из 194,955 моделей представленных в актуальных бенчмарках. Определены два ключевых результата: (1) 61.6% вопросов относятся к рискам, связанным с "тенденцией к халтурингу", и 31.2% — к "нестабильности производительности", а (2) ни один вопрос не касается критических сценариев, таких как "автономное развитие" и "эволюция самостоятельного управления". Это значит, что бенчмарки не могут служить доказательством рисков, необходимым для соответствия нормативным требованиям.
## Значимость
Выявленный "gap" между текущим бенчмарком и нормативным риском является критическим для создания надежного регулирования GPAI. Это демонстрирует необходимость внедрения новых методик для оценки комплексных системных рисков. Результаты могут использоваться для развития будущих оценочных инструментов, которые будут действительно отвечать нормативным требованиям ЕС, сфокусированным на рисках систем, таких как управляемость, автономность и саморепликация. Будущие исследования будут направлены на дальнейшее уточнение фреймворка и поиск решений для перекрытия этого "gap".
## Выводы
Выводы Bench-2-CoP открывают новые возможности для конкретных решений рисков, связанных с GPAI. Новый подход к оценке моделей система
Abstract
The rapid advancement of General Purpose AI (GPAI) models necessitates robust
evaluation frameworks, especially with emerging regulations like the EU AI Act
and its associated Code of Practice (CoP). Current AI evaluation practices
depend heavily on established benchmarks, but these tools were not designed to
measure the systemic risks that are the focus of the new regulatory landscape.
This research addresses the urgent need to quantify this "benchmark-regulation
gap." We introduce Bench-2-CoP, a novel, systematic framework that uses
validated LLM-as-judge analysis to map the coverage of 194,955 questions from
widely-used benchmarks against the EU AI Act's taxonomy of model capabilities
and propensities. Our findings reveal a profound misalignment: the evaluation
ecosystem dedicates the vast majority of its focus to a narrow set of
behavioral propensities. On average, benchmarks devote 61.6% of their
regulatory-relevant questions to "Tendency to hallucinate" and 31.2% to "Lack
of performance reliability", while critical functional capabilities are
dangerously neglected. Crucially, capabilities central to loss-of-control
scenarios, including evading human oversight, self-replication, and autonomous
AI development, receive zero coverage in the entire benchmark corpus. This
study provides the first comprehensive, quantitative analysis of this gap,
demonstrating that current public benchmarks are insufficient, on their own,
for providing the evidence of comprehensive risk assessment required for
regulatory compliance and offering critical insights for the development of
next-generation evaluation tools.
Ссылки и действия
Дополнительные ресурсы: