Can We Trust AI to Govern AI? Benchmarking LLM Performance on Privacy and AI Governance Exams
2508.09036v1
cs.CY, cs.AI
2025-08-14
Авторы:
Zane Witherspoon, Thet Mon Aye, YingYing Hao
Резюме на русском
## Контекст
Становление широкомасштабных языковых моделей (LLM) определяет новый этап в развитии искусственного интеллекта. Эти модели показали потрясающие возможности в области обработки текста, но ряд вопросов остается открытым, в том числе в области подготовки к профессиональным экзаменам, посвященным тем вопросам, как регулирование конфиденциальности данных и управление ими. Многие компании развернули обучение LLMs с целью повысить эффективность рабочего процесса, но вопрос о достоверности их решений в сфере юридического и технического гуманитарного контроля, в том числе в сфере управления данными и соблюдением законодательства о конфиденциальности, остается актуальным.
Поэтому, в данной статье мы рассматриваем возможность использования LLMs в регулировании технологий, путем проведения эксперимента: проверка того, насколько эти модели могут пройти сертификационные экзамены в сфере юридических и технических аспектов конфиденциальности. Эта исследовательская работа ставит целью определить, насколько LLMs могут оказать полезную поддержку для профессионалов в области конфиденциальности и технологического управления, а также понять, насколько эти модели могут стать надежным инструментом в решении управленческих задач.
## Метод
Мы провели эксперимент, в котором использовали 10 различных языковых моделей, включая коммерческие и открытые версии, например, GPT-5 от OpenAI, Gemini 2.5 Pro, Claude 2 от Anthropic и другие. Для проверки все модели были подвергнуты экзаменам по темам конфиденциальности, управления данными и технического контроля, в том числе CIPP/US, CIPM, CIPT и AIGP от International Association of Privacy Professionals (IAPP).
На экзаменах LLMs отвечали на вопросы, аналогичные тем, которые появляются в экзаменах IAPP. Экзамены проводились в закрытой форме (без доступа к интернету и внешним источникам), чтобы создать эквивалентные условия для людей, сдающих эти экзамены. Результаты были сравнены с пороговыми значениями IAPP для получения сертификата. Это позволило определить, насколько модели LLMs могут быть конкурентоспособными на профессиональных экзаменах.
## Результаты
Мы обнаружили, что некоторые модели LLMs показали выдающиеся результаты, превысив пороговые значения IAPP для профессионального сертификата. Например, GPT-5 от OpenAI и Gemini 2.5 Pro получили отметки выше 80% на нескольких экзаменах, что показывает их высокую компетентность в теме регулирования конфиденциальности и технологического управления. Тем не менее, другие модели, такие как Claude 2, оказались менее эффективными в некоторых областях, особенно в особенностях технического контроля.
## Значимость
Наша иссле
Abstract
The rapid emergence of large language models (LLMs) has raised urgent
questions across the modern workforce about this new technology's strengths,
weaknesses, and capabilities. For privacy professionals, the question is
whether these AI systems can provide reliable support on regulatory compliance,
privacy program management, and AI governance. In this study, we evaluate ten
leading open and closed LLMs, including models from OpenAI, Anthropic, Google
DeepMind, Meta, and DeepSeek, by benchmarking their performance on
industry-standard certification exams: CIPP/US, CIPM, CIPT, and AIGP from the
International Association of Privacy Professionals (IAPP). Each model was
tested using official sample exams in a closed-book setting and compared to
IAPP's passing thresholds. Our findings show that several frontier models such
as Gemini 2.5 Pro and OpenAI's GPT-5 consistently achieve scores exceeding the
standards for professional human certification - demonstrating substantial
expertise in privacy law, technical controls, and AI governance. The results
highlight both the strengths and domain-specific gaps of current LLMs and offer
practical insights for privacy officers, compliance leads, and technologists
assessing the readiness of AI tools for high-stakes data governance roles. This
paper provides an overview for professionals navigating the intersection of AI
advancement and regulatory risk and establishes a machine benchmark based on
human-centric evaluations.
Ссылки и действия
Дополнительные ресурсы: