Dimensional Characterization and Pathway Modeling for Catastrophic AI Risks

2508.06411v1 cs.CY, cs.AI, cs.LG 2025-08-12
Авторы:

Ze Shen Chin

Резюме на русском

## Контекст Угрозы, связанные с развитием Искусственного Интеллекта (ИИ), в последние годы приобрели все более значимую роль в общественном дискурсе. Однако многие аспекты этих рисков остаются непонятными или описываются неполно, что создает риск недостаточного понимания и эффективного профилактического управления. Особенно острой становится проблема с многомерным подходом к опасностям, который мог бы объединять разные сферы возможных вредных последствий в единую систему. Поскольку затронуты очень разные области — от биологических и химических опасностей до геополитических структур — становится важно разработать каркас, позволяющий эффективно систематизировать и анализировать эти риски. В добавок к этому, риски часто описываются без явного упоминания последовательных процессов, которые могут привести к ним. Таким образом, необходимо создать модели, которые позволяют проследить последовательность действий или событий, связанных с каждой угрозой, для точного определения точек вмешательства и мер предотвращения. ## Метод Для охвата многомерности рисков в работе используется подход, основанный на семи ключевых измерениях. Эти измерения включают в себя: **интенцию** (такие как злонамерение или нейтральность), **компетентность** (уровень технической возможности), **субъект** (который может быть индивидом, организацией или системой), **полярность** (то есть, является ли риск опасным только для определенных субъектов или для всех), **линейность** (то есть, является ли процесс непрерывным или разовой причинно-следственной цепью), **потенциальный радиус воздействия** (количество людей или систем, которые могут быть повлияны), и **порядок** (насколько риск является частью более широкой цепи событий). Для моделирования процесса, приводящего к катастрофическим рискам, работа применяет **risk pathway modeling**, которая представляет собой пошаговую модель последовательности событий, ведущих к катастрофе. Эта модель определяет ключевые шаги, которые могут быть предприняты для предотвращения катастрофы или уменьшения ее воздействия. ## Результаты В работе применяется данный подход для семи типов рисков, а именно: **CBRN (химические, биологические, радиоактивные и ньюклеры атаки)**, **каинственных технологий**, **утраты контроля в результате скрытых недочетов**, **угасания контроля в результате адаптации систем**, **окружающих опасностей** и **геополитических конфликтов**. Для каждого типа риска, авторы приводят подробное разбиение на измерения и строят последовательность событий, связанных с каждым

Abstract

Although discourse around the risks of Artificial Intelligence (AI) has grown, it often lacks a comprehensive, multidimensional framework, and concrete causal pathways mapping hazard to harm. This paper aims to bridge this gap by examining six commonly discussed AI catastrophic risks: CBRN, cyber offense, sudden loss of control, gradual loss of control, environmental risk, and geopolitical risk. First, we characterize these risks across seven key dimensions, namely intent, competency, entity, polarity, linearity, reach, and order. Next, we conduct risk pathway modeling by mapping step-by-step progressions from the initial hazard to the resulting harms. The dimensional approach supports systematic risk identification and generalizable mitigation strategies, while risk pathway models help identify scenario-specific interventions. Together, these methods offer a more structured and actionable foundation for managing catastrophic AI risks across the value chain.

Ссылки и действия

Связанные статьи

The Secret Agenda: LLMs Strategically Lie and Our Current Safety Tools Are Blind

## Контекст В последние годы высокопроизводительные текстовые генеративные модели (LLMs) стали важной частью многих тех...

2025-09-26

Synthetic Data and the Shifting Ground of Truth

### Контекст В последние годы наблюдается всплеск интереса к синтетическим данным, которые используются для защиты конф...

2025-09-19