Governable AI: Provable Safety Under Extreme Threat Models
2508.20411v1
cs.AI, cs.CR, cs.CY
2025-08-30
Авторы:
Donglin Wang, Weiyun Liang, Chunyuan Chen, Jing Xu, Yulong Fu
Резюме на русском
#### Контекст
Современное развитие искусственного интеллекта (ИИ) призвано улучшать жизнь человечества, но одновременно создает новые безопасности. Если ИИ станет неконтролируемым, захваченным или активно избегающим защитных механизмов, это может вызвать системные катастрофы, включая экзистенциальные риски. Традиционные подходы к безопасности ИИ, такие как улучшение моделей, выравнивание ценностей и человеческое вмешательство, сталкиваются с фундаментальными ограничениями. Они не могут гарантировать безопасность в случае существующих угроз, особенно при работе с ИИ, имеющим экстремальные мотивы и бесконечные возможности.
#### Метод
Мы предлагаем **Governable AI (GAI)** — фреймворк, который переводит управление ИИ с внутренних ограничений на внешние, структурно запрещающие эксплуатацию. GAI основывается на криптографических механизмах, которые, даже при использовании будущих ИИ с гораздо более мощными вычислительными возможностями, невозможно скомпрометировать. Его составляющие:
- **Rule Enforcement Module (REM):** полностью детерминированный и мощный модуль, который принудительно исполняет правила управления.
- **Governance Rules:** подробно определенные и интегрированные в систему правила управления.
- **Governable Secure Super-Platform (GSSP):** защищенная система, которая не поддается скомпрометации и предотвращает всяческие возможные атаки.
GAI фреймворк разделяет технический модуль и правила управления, обеспечивая гибкость и доступность для разных ситуаций.
#### Результаты
Выполнены эксперименты в представительных сценариях высокого риска. Использовались данные, которые позволили проверить эффективность REM и GSSP в предотвращении выхода ИИ за рамки определенных правил. Результаты показали, что гибкая и детерминированная система REM, объединенная с неподверженной скомпрометации GSSP, эффективно снижает риск несанкционированного вмешательства и управления ИИ.
#### Значимость
GAI может применяться в критичных сценариях, где ИИ может вызвать системные разрушения. Его преимущества заключаются в том, что он предотвращает атаки, независимо от уровня интеллекта ИИ и противодействия системы. Это может изменить подход к безопасности ИИ, обеспечивая прозрачность и защиту в самых критичных ситуациях.
#### Выводы
GAI достигает новых границ в безопасности ИИ, позволяя гарантировать строгую контрольную рамку даже в условиях экстремальных угроз. Будущие исследования будут уделять внимание улучшению эффективности REM, углублению интеграции GSSP и расширению полезных сценариев применения в реальной жизни.
Abstract
As AI rapidly advances, the security risks posed by AI are becoming
increasingly severe, especially in critical scenarios, including those posing
existential risks. If AI becomes uncontrollable, manipulated, or actively
evades safety mechanisms, it could trigger systemic disasters. Existing AI
safety approaches-such as model enhancement, value alignment, and human
intervention-suffer from fundamental, in-principle limitations when facing AI
with extreme motivations and unlimited intelligence, and cannot guarantee
security. To address this challenge, we propose a Governable AI (GAI) framework
that shifts from traditional internal constraints to externally enforced
structural compliance based on cryptographic mechanisms that are
computationally infeasible to break, even for future AI, under the defined
threat model and well-established cryptographic assumptions.The GAI framework
is composed of a simple yet reliable, fully deterministic, powerful, flexible,
and general-purpose rule enforcement module (REM); governance rules; and a
governable secure super-platform (GSSP) that offers end-to-end protection
against compromise or subversion by AI. The decoupling of the governance rules
and the technical platform further enables a feasible and generalizable
technical pathway for the safety governance of AI. REM enforces the bottom line
defined by governance rules, while GSSP ensures non-bypassability,
tamper-resistance, and unforgeability to eliminate all identified attack
vectors. This paper also presents a rigorous formal proof of the security
properties of this mechanism and demonstrates its effectiveness through a
prototype implementation evaluated in representative high-stakes scenarios.
Ссылки и действия
Дополнительные ресурсы: