Governable AI: Provable Safety Under Extreme Threat Models

2508.20411v1 cs.AI, cs.CR, cs.CY 2025-08-30
Авторы:

Donglin Wang, Weiyun Liang, Chunyuan Chen, Jing Xu, Yulong Fu

Резюме на русском

#### Контекст Современное развитие искусственного интеллекта (ИИ) призвано улучшать жизнь человечества, но одновременно создает новые безопасности. Если ИИ станет неконтролируемым, захваченным или активно избегающим защитных механизмов, это может вызвать системные катастрофы, включая экзистенциальные риски. Традиционные подходы к безопасности ИИ, такие как улучшение моделей, выравнивание ценностей и человеческое вмешательство, сталкиваются с фундаментальными ограничениями. Они не могут гарантировать безопасность в случае существующих угроз, особенно при работе с ИИ, имеющим экстремальные мотивы и бесконечные возможности. #### Метод Мы предлагаем **Governable AI (GAI)** — фреймворк, который переводит управление ИИ с внутренних ограничений на внешние, структурно запрещающие эксплуатацию. GAI основывается на криптографических механизмах, которые, даже при использовании будущих ИИ с гораздо более мощными вычислительными возможностями, невозможно скомпрометировать. Его составляющие: - **Rule Enforcement Module (REM):** полностью детерминированный и мощный модуль, который принудительно исполняет правила управления. - **Governance Rules:** подробно определенные и интегрированные в систему правила управления. - **Governable Secure Super-Platform (GSSP):** защищенная система, которая не поддается скомпрометации и предотвращает всяческие возможные атаки. GAI фреймворк разделяет технический модуль и правила управления, обеспечивая гибкость и доступность для разных ситуаций. #### Результаты Выполнены эксперименты в представительных сценариях высокого риска. Использовались данные, которые позволили проверить эффективность REM и GSSP в предотвращении выхода ИИ за рамки определенных правил. Результаты показали, что гибкая и детерминированная система REM, объединенная с неподверженной скомпрометации GSSP, эффективно снижает риск несанкционированного вмешательства и управления ИИ. #### Значимость GAI может применяться в критичных сценариях, где ИИ может вызвать системные разрушения. Его преимущества заключаются в том, что он предотвращает атаки, независимо от уровня интеллекта ИИ и противодействия системы. Это может изменить подход к безопасности ИИ, обеспечивая прозрачность и защиту в самых критичных ситуациях. #### Выводы GAI достигает новых границ в безопасности ИИ, позволяя гарантировать строгую контрольную рамку даже в условиях экстремальных угроз. Будущие исследования будут уделять внимание улучшению эффективности REM, углублению интеграции GSSP и расширению полезных сценариев применения в реальной жизни.

Abstract

As AI rapidly advances, the security risks posed by AI are becoming increasingly severe, especially in critical scenarios, including those posing existential risks. If AI becomes uncontrollable, manipulated, or actively evades safety mechanisms, it could trigger systemic disasters. Existing AI safety approaches-such as model enhancement, value alignment, and human intervention-suffer from fundamental, in-principle limitations when facing AI with extreme motivations and unlimited intelligence, and cannot guarantee security. To address this challenge, we propose a Governable AI (GAI) framework that shifts from traditional internal constraints to externally enforced structural compliance based on cryptographic mechanisms that are computationally infeasible to break, even for future AI, under the defined threat model and well-established cryptographic assumptions.The GAI framework is composed of a simple yet reliable, fully deterministic, powerful, flexible, and general-purpose rule enforcement module (REM); governance rules; and a governable secure super-platform (GSSP) that offers end-to-end protection against compromise or subversion by AI. The decoupling of the governance rules and the technical platform further enables a feasible and generalizable technical pathway for the safety governance of AI. REM enforces the bottom line defined by governance rules, while GSSP ensures non-bypassability, tamper-resistance, and unforgeability to eliminate all identified attack vectors. This paper also presents a rigorous formal proof of the security properties of this mechanism and demonstrates its effectiveness through a prototype implementation evaluated in representative high-stakes scenarios.

Ссылки и действия