Oyster-I: Beyond Refusal -- Constructive Safety Alignment for Responsible Language Models

2509.01909v2 cs.AI, cs.CL, cs.CY, cs.HC, cs.SC 2025-09-05

Авторы:

Ranjie Duan, Jiexi Liu, Xiaojun Jia, Shiji Zhao, Ruoxi Cheng, Fengxiang Wang, Cheng Wei, Yong Xie, Chang Liu, Defeng Li, Yinpeng Dong, Yichi Zhang, Yuefeng Chen, Chongwen Wang, Xingjun Ma, Xingxing Wei, Yang Liu, Hang Su, Jun Zhu, Xinfeng Li, Yitong Sun, Jie Zhang, Jinzhao Hu, Sha Xu, Yitong Yang, Jialing Tao, Hui Xue

Резюме на русском

## Контекст В последние годы большие языковые модели (LLMs) становятся все более популярными в различных сферах применения, от поиска информации до помощи в решении кастомных задач. Однако при таком росте популярности возникают новые задачи, связанные с рисками, которые могут возникнуть при использовании таких моделей. Наиболее значимыми рисками являются возможность генерирования вредоносного контента и влияние на поведение пользователей, особенно в ситуациях, когда они находятся под психологическим давлением. Классические подходы к обеспечению безопасности в LLMs направлены на профилактику вредоносного воздействия, основываясь на предотвращении атак злоумышленников. Однако менее внимания уделяется ситуациям, когда пользователи, находящиеся в психологическом стрессе, могут искать помощь на неблагонамеренных платформах, которые могут не способствовать их благополучию. В таких ситуациях ответ модели может сильно повлиять на последующие действия пользователя. Стандартные "защитные отказы" могут привести к тому, что пользователь повторит запрос или перейдет на менее безопасные платформы. Чтобы сделать модели безопасными не только для защиты от атак, но и для помощи пользователям, необходимо развить новый подход, который бы строил безопасную и доверительную связь между моделью и пользователем. Такой подход должен быть уместен в реальных условиях, когда пользователи могут искать помощь в трудных жизненных ситуациях. ## Метод Методология, описанная в статье, называется Constructive Safety Alignment (CSA). Это подход, который предлагает переключиться с "защитного отказа" на "построение доверия" в отношениях модели с пользователем. Основные компоненты CSA - это: 1. **Game-theoretic anticipation of user reactions** - модель предсказывает возможные реакции пользователя на свои ответы и адаптирует свой подход в зависимости от этого. 2. **Fine-grained risk boundary discovery** - модель определяет тонкие границы риска, что позволяет отличать неблагонамеренные запросы от тех, которые требуют помощи. 3. **Interpretable reasoning control** - модель объясняет свои решения и позволяет пользователю понять, почему она выбрала конкретный подход. CSA не только предотвращает вредоносное использование моделей, но и активно помогает пользователям, находящимся в психологическом стрессе, предоставляя им ценные рекомендации и пути к решению проблем. Такой подход включен в модель Oyster-I (Oy1), которая применяет эти принципы для достижения более доверительных и полезных отношений с пользователем. ## Результаты В ходе исследования был проведен ряд экспериментов, которые позволили оценить эффективность метода Constructive Safety Alignment. Результаты показали, что Oyster-I (Oy1) демонстрирует вы

Abstract

Large language models (LLMs) typically deploy safety mechanisms to prevent harmful content generation. Most current approaches focus narrowly on risks posed by malicious actors, often framing risks as adversarial events and relying on defensive refusals. However, in real-world settings, risks also come from non-malicious users seeking help while under psychological distress (e.g., self-harm intentions). In such cases, the model's response can strongly influence the user's next actions. Simple refusals may lead them to repeat, escalate, or move to unsafe platforms, creating worse outcomes. We introduce Constructive Safety Alignment (CSA), a human-centric paradigm that protects against malicious misuse while actively guiding vulnerable users toward safe and helpful results. Implemented in Oyster-I (Oy1), CSA combines game-theoretic anticipation of user reactions, fine-grained risk boundary discovery, and interpretable reasoning control, turning safety into a trust-building process. Oy1 achieves state-of-the-art safety among open models while retaining high general capabilities. On our Constructive Benchmark, it shows strong constructive engagement, close to GPT-5, and unmatched robustness on the Strata-Sword jailbreak dataset, nearing GPT-o1 levels. By shifting from refusal-first to guidance-first safety, CSA redefines the model-user relationship, aiming for systems that are not just safe, but meaningfully helpful. We release Oy1, code, and the benchmark to support responsible, user-centered AI.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Резюме на русском

Abstract

Ссылки и действия

Навигация