Can We Trust AI to Govern AI? Benchmarking LLM Performance on Privacy and AI Governance Exams

2508.09036v1 cs.CY, cs.AI 2025-08-14
Авторы:

Zane Witherspoon, Thet Mon Aye, YingYing Hao

Резюме на русском

## Контекст Становление широкомасштабных языковых моделей (LLM) определяет новый этап в развитии искусственного интеллекта. Эти модели показали потрясающие возможности в области обработки текста, но ряд вопросов остается открытым, в том числе в области подготовки к профессиональным экзаменам, посвященным тем вопросам, как регулирование конфиденциальности данных и управление ими. Многие компании развернули обучение LLMs с целью повысить эффективность рабочего процесса, но вопрос о достоверности их решений в сфере юридического и технического гуманитарного контроля, в том числе в сфере управления данными и соблюдением законодательства о конфиденциальности, остается актуальным. Поэтому, в данной статье мы рассматриваем возможность использования LLMs в регулировании технологий, путем проведения эксперимента: проверка того, насколько эти модели могут пройти сертификационные экзамены в сфере юридических и технических аспектов конфиденциальности. Эта исследовательская работа ставит целью определить, насколько LLMs могут оказать полезную поддержку для профессионалов в области конфиденциальности и технологического управления, а также понять, насколько эти модели могут стать надежным инструментом в решении управленческих задач. ## Метод Мы провели эксперимент, в котором использовали 10 различных языковых моделей, включая коммерческие и открытые версии, например, GPT-5 от OpenAI, Gemini 2.5 Pro, Claude 2 от Anthropic и другие. Для проверки все модели были подвергнуты экзаменам по темам конфиденциальности, управления данными и технического контроля, в том числе CIPP/US, CIPM, CIPT и AIGP от International Association of Privacy Professionals (IAPP). На экзаменах LLMs отвечали на вопросы, аналогичные тем, которые появляются в экзаменах IAPP. Экзамены проводились в закрытой форме (без доступа к интернету и внешним источникам), чтобы создать эквивалентные условия для людей, сдающих эти экзамены. Результаты были сравнены с пороговыми значениями IAPP для получения сертификата. Это позволило определить, насколько модели LLMs могут быть конкурентоспособными на профессиональных экзаменах. ## Результаты Мы обнаружили, что некоторые модели LLMs показали выдающиеся результаты, превысив пороговые значения IAPP для профессионального сертификата. Например, GPT-5 от OpenAI и Gemini 2.5 Pro получили отметки выше 80% на нескольких экзаменах, что показывает их высокую компетентность в теме регулирования конфиденциальности и технологического управления. Тем не менее, другие модели, такие как Claude 2, оказались менее эффективными в некоторых областях, особенно в особенностях технического контроля. ## Значимость Наша иссле

Abstract

The rapid emergence of large language models (LLMs) has raised urgent questions across the modern workforce about this new technology's strengths, weaknesses, and capabilities. For privacy professionals, the question is whether these AI systems can provide reliable support on regulatory compliance, privacy program management, and AI governance. In this study, we evaluate ten leading open and closed LLMs, including models from OpenAI, Anthropic, Google DeepMind, Meta, and DeepSeek, by benchmarking their performance on industry-standard certification exams: CIPP/US, CIPM, CIPT, and AIGP from the International Association of Privacy Professionals (IAPP). Each model was tested using official sample exams in a closed-book setting and compared to IAPP's passing thresholds. Our findings show that several frontier models such as Gemini 2.5 Pro and OpenAI's GPT-5 consistently achieve scores exceeding the standards for professional human certification - demonstrating substantial expertise in privacy law, technical controls, and AI governance. The results highlight both the strengths and domain-specific gaps of current LLMs and offer practical insights for privacy officers, compliance leads, and technologists assessing the readiness of AI tools for high-stakes data governance roles. This paper provides an overview for professionals navigating the intersection of AI advancement and regulatory risk and establishes a machine benchmark based on human-centric evaluations.

Ссылки и действия