Oyster-I: Beyond Refusal -- Constructive Safety Alignment for Responsible Language Models
2509.01909v2
cs.AI, cs.CL, cs.CY, cs.HC, cs.SC
2025-09-05
Авторы:
Ranjie Duan, Jiexi Liu, Xiaojun Jia, Shiji Zhao, Ruoxi Cheng, Fengxiang Wang, Cheng Wei, Yong Xie, Chang Liu, Defeng Li, Yinpeng Dong, Yichi Zhang, Yuefeng Chen, Chongwen Wang, Xingjun Ma, Xingxing Wei, Yang Liu, Hang Su, Jun Zhu, Xinfeng Li, Yitong Sun, Jie Zhang, Jinzhao Hu, Sha Xu, Yitong Yang, Jialing Tao, Hui Xue
Резюме на русском
## Контекст
В последние годы большие языковые модели (LLMs) становятся все более популярными в различных сферах применения, от поиска информации до помощи в решении кастомных задач. Однако при таком росте популярности возникают новые задачи, связанные с рисками, которые могут возникнуть при использовании таких моделей. Наиболее значимыми рисками являются возможность генерирования вредоносного контента и влияние на поведение пользователей, особенно в ситуациях, когда они находятся под психологическим давлением.
Классические подходы к обеспечению безопасности в LLMs направлены на профилактику вредоносного воздействия, основываясь на предотвращении атак злоумышленников. Однако менее внимания уделяется ситуациям, когда пользователи, находящиеся в психологическом стрессе, могут искать помощь на неблагонамеренных платформах, которые могут не способствовать их благополучию. В таких ситуациях ответ модели может сильно повлиять на последующие действия пользователя. Стандартные "защитные отказы" могут привести к тому, что пользователь повторит запрос или перейдет на менее безопасные платформы.
Чтобы сделать модели безопасными не только для защиты от атак, но и для помощи пользователям, необходимо развить новый подход, который бы строил безопасную и доверительную связь между моделью и пользователем. Такой подход должен быть уместен в реальных условиях, когда пользователи могут искать помощь в трудных жизненных ситуациях.
## Метод
Методология, описанная в статье, называется Constructive Safety Alignment (CSA). Это подход, который предлагает переключиться с "защитного отказа" на "построение доверия" в отношениях модели с пользователем. Основные компоненты CSA - это:
1. **Game-theoretic anticipation of user reactions** - модель предсказывает возможные реакции пользователя на свои ответы и адаптирует свой подход в зависимости от этого.
2. **Fine-grained risk boundary discovery** - модель определяет тонкие границы риска, что позволяет отличать неблагонамеренные запросы от тех, которые требуют помощи.
3. **Interpretable reasoning control** - модель объясняет свои решения и позволяет пользователю понять, почему она выбрала конкретный подход.
CSA не только предотвращает вредоносное использование моделей, но и активно помогает пользователям, находящимся в психологическом стрессе, предоставляя им ценные рекомендации и пути к решению проблем. Такой подход включен в модель Oyster-I (Oy1), которая применяет эти принципы для достижения более доверительных и полезных отношений с пользователем.
## Результаты
В ходе исследования был проведен ряд экспериментов, которые позволили оценить эффективность метода Constructive Safety Alignment. Результаты показали, что Oyster-I (Oy1) демонстрирует вы
Abstract
Large language models (LLMs) typically deploy safety mechanisms to prevent
harmful content generation. Most current approaches focus narrowly on risks
posed by malicious actors, often framing risks as adversarial events and
relying on defensive refusals. However, in real-world settings, risks also come
from non-malicious users seeking help while under psychological distress (e.g.,
self-harm intentions). In such cases, the model's response can strongly
influence the user's next actions. Simple refusals may lead them to repeat,
escalate, or move to unsafe platforms, creating worse outcomes. We introduce
Constructive Safety Alignment (CSA), a human-centric paradigm that protects
against malicious misuse while actively guiding vulnerable users toward safe
and helpful results. Implemented in Oyster-I (Oy1), CSA combines game-theoretic
anticipation of user reactions, fine-grained risk boundary discovery, and
interpretable reasoning control, turning safety into a trust-building process.
Oy1 achieves state-of-the-art safety among open models while retaining high
general capabilities. On our Constructive Benchmark, it shows strong
constructive engagement, close to GPT-5, and unmatched robustness on the
Strata-Sword jailbreak dataset, nearing GPT-o1 levels. By shifting from
refusal-first to guidance-first safety, CSA redefines the model-user
relationship, aiming for systems that are not just safe, but meaningfully
helpful. We release Oy1, code, and the benchmark to support responsible,
user-centered AI.