Bench-2-CoP: Can We Trust Benchmarking for EU AI Compliance?

2508.05464v2 cs.AI, cs.CL 2025-08-11

Авторы:

Matteo Prandi, Vincenzo Suriani, Federico Pierucci, Marcello Galisai, Daniele Nardi, Piercosma Bisconti

Резюме на русском

Резюме: ## Контекст Появление General Purpose AI (GPAI) требует эффективных фреймворков для оценки, особенно в свете нормативных требований Европейского Союза, таких как EU AI Act и Code of Practice (CoP). Основными проблемами являются недостатки в существующих методах оценки, не отвечающих новым потребностям регулирования, а именно в сфере учета системных рисков. Одна из основных проблем — "gap" между современными бенчмарками и новой регуляторной терминологией, который необходимо измерить и закрыть. Целью этого исследования является создание автоматизированного подхода для качественного анализа текущих бенчмарков и их соответствия нормативным требованиям. ## Метод Разработан Bench-2-CoP — новый фреймворк, который использует систему LLM-as-judge для оценки 194,955 вопросов, взятых из широко распространенных бенчмарков, с применением таксономии EU AI Act. Основным заданием этого метода является измерение соответствия реальных сценариев рисков систематическим рискам, определенным в CoP. Основной технический подход заключается в сборе и анализе данных с бенчмарков с использованием глубокого обучения и NLP-технологий для выявления соответствия ключевых сценариев рисков и соответствия регуляторным требованиям. ## Результаты На основе Bench-2-CoP, проанализированы вопросы из 194,955 моделей представленных в актуальных бенчмарках. Определены два ключевых результата: (1) 61.6% вопросов относятся к рискам, связанным с "тенденцией к халтурингу", и 31.2% — к "нестабильности производительности", а (2) ни один вопрос не касается критических сценариев, таких как "автономное развитие" и "эволюция самостоятельного управления". Это значит, что бенчмарки не могут служить доказательством рисков, необходимым для соответствия нормативным требованиям. ## Значимость Выявленный "gap" между текущим бенчмарком и нормативным риском является критическим для создания надежного регулирования GPAI. Это демонстрирует необходимость внедрения новых методик для оценки комплексных системных рисков. Результаты могут использоваться для развития будущих оценочных инструментов, которые будут действительно отвечать нормативным требованиям ЕС, сфокусированным на рисках систем, таких как управляемость, автономность и саморепликация. Будущие исследования будут направлены на дальнейшее уточнение фреймворка и поиск решений для перекрытия этого "gap". ## Выводы Выводы Bench-2-CoP открывают новые возможности для конкретных решений рисков, связанных с GPAI. Новый подход к оценке моделей система

Abstract

The rapid advancement of General Purpose AI (GPAI) models necessitates robust evaluation frameworks, especially with emerging regulations like the EU AI Act and its associated Code of Practice (CoP). Current AI evaluation practices depend heavily on established benchmarks, but these tools were not designed to measure the systemic risks that are the focus of the new regulatory landscape. This research addresses the urgent need to quantify this "benchmark-regulation gap." We introduce Bench-2-CoP, a novel, systematic framework that uses validated LLM-as-judge analysis to map the coverage of 194,955 questions from widely-used benchmarks against the EU AI Act's taxonomy of model capabilities and propensities. Our findings reveal a profound misalignment: the evaluation ecosystem dedicates the vast majority of its focus to a narrow set of behavioral propensities. On average, benchmarks devote 61.6% of their regulatory-relevant questions to "Tendency to hallucinate" and 31.2% to "Lack of performance reliability", while critical functional capabilities are dangerously neglected. Crucially, capabilities central to loss-of-control scenarios, including evading human oversight, self-replication, and autonomous AI development, receive zero coverage in the entire benchmark corpus. This study provides the first comprehensive, quantitative analysis of this gap, demonstrating that current public benchmarks are insufficient, on their own, for providing the evidence of comprehensive risk assessment required for regulatory compliance and offering critical insights for the development of next-generation evaluation tools.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Bench-2-CoP: Can We Trust Benchmarking for EU AI Compliance?

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Algorithmic Thinking Theory

From Atomic to Composite: Reinforcement Learning Enables Generalization in Compl...

LLM CHESS: Benchmarking Reasoning and Instruction-Following in LLMs through Ches...

DeepSeekMath-V2: Towards Self-Verifiable Mathematical Reasoning

Probing the "Psyche'' of Large Reasoning Models: Understanding Through a Human L...

Навигация