The 2025 OpenAI Preparedness Framework does not guarantee any AI risk mitigation practices: a proof-of-concept for affordance analyses of AI safety policies

2509.24394v1 cs.CY, cs.AI 2025-10-01
Авторы:

Sam Coggins, Alex Saeri, Katherine A. Daniell, Lorenn P. Ruster, Jessie Liu, Jenny L. Davis

Резюме на русском

## Контекст Проблемы, связанные с развитием и развертыванием искусственного интеллекта (ИИ), приобрели масштабы, которые отражают глобальный характер. Из-за потенциальных рисков, связанных с широким развертыванием систем ИИ, включая угрозы безопасности, финансовые потери и потери жизней, значительно вырос вопрос о поиске эффективных методов их управления. Несмотря на то, что некоторые крупные AI-компании, такие как OpenAI, производят "сейфти-фреймворки" (саморегулируемые политики), которые якобы устанавливают границы рисков и процедуры безопасности, эти документы часто отсутствуют в своих подробностях и ясности. Мотивация для данного исследования заключается в том, чтобы проанализировать фактическую эффективность таких фреймворков и выявить пробелы в нормативном регулировании. ## Метод Для данного исследования был применен метод анализа "affordance", основанный на теории affordance и модели Mechanisms & Conditions. Был использован MIT AI Risk Repository для оценки политики OpenAI "Preparedness Framework Version 2" (апрель 2025 года). Этот подход позволяет детально проанализировать, какие риски покрываются политикой, какие действия разрешены или запрещены, и какие субъективные или неясные зоны существуют в политике. ## Результаты На основе анализа были выявлены несколько ключевых результатов: 1. OpenAI Preparedness Framework охватывает малую часть AI-рисков и не полностью определяет, что является серьезным риском. 2. Фреймворк поощряет развертывание систем с "средним" уровнем способностей, которые, по определению OpenAI, могут привести к "существенному вредному воздействию" (например, потерей более 1000 жизней или $100 млрд в течение нескольких лет). 3. Фреймворк утверждает, что даже более опасные системы могут быть развернуты по решению CEO OpenAI. 4. Этот подход показывает, что действующие саморегулируемые политики не гарантируют эффективного управления рисками. ## Значимость Результаты этого исследования имеют значительное значение для широкого круга интересующихся сторон. Они говорят о необходимости налаживания более строгих нормативных мероприятий, которые могут помочь уменьшить риски, связанные с развитием ИИ. Это может быть полезно для государственных органов, компаний, которые разрабатывают и развертывают ИИ, и для общественных организаций, которые заботятся о социальных и экономических последствиях. Подход к анализу "affordance" также может быть применен для оценки других подобных фреймворков в будущем. ## Выводы На основе данного исследования, можно сделать вывод, что нынешние саморегули

Abstract

Prominent AI companies are producing 'safety frameworks' as a type of voluntary self-governance. These statements purport to establish risk thresholds and safety procedures for the development and deployment of highly capable AI. Understanding which AI risks are covered and what actions are allowed, refused, demanded, encouraged, or discouraged by these statements is vital for assessing how these frameworks actually govern AI development and deployment. We draw on affordance theory to analyse the OpenAI 'Preparedness Framework Version 2' (April 2025) using the Mechanisms & Conditions model of affordances and the MIT AI Risk Repository. We find that this safety policy requests evaluation of a small minority of AI risks, encourages deployment of systems with 'Medium' capabilities for what OpenAI itself defines as 'severe harm' (potential for >1000 deaths or >$100B in damages), and allows OpenAI's CEO to deploy even more dangerous capabilities. These findings suggest that effective mitigation of AI risks requires more robust governance interventions beyond current industry self-regulation. Our affordance analysis provides a replicable method for evaluating what safety frameworks actually permit versus what they claim.

Ссылки и действия