From Hard Refusals to Safe-Completions: Toward Output-Centric Safety Training

2508.09224v1 cs.CY, cs.AI, cs.CL 2025-08-15
Авторы:

Yuan Yuan, Tina Sriskandarajah, Anna-Luisa Brakman, Alec Helyar, Alex Beutel, Andrea Vallone, Saachi Jain

Резюме на русском

########################## ## Контекст ########################## Лучшие в классе технологии ИИ, такие как ChatGPT, на основе бо LLM, широко используются в различных сферах, от образования до бизнеса. Однако существуют значительные проблемы, связанные с их безопасностью. Например, некоторые запросы могут быть адресованы не только для получения полезных ответов, но и для злонамеренных целей. В связи с этим, существуют трудности в обеспечении безопасности моделей, особенно при работе с запросами, имеющими двойственные значения. Традиционно, модели LLM обучаются определять порог отказа: либо выполняют запрос, либо отказываются от него. Этот подход эффективен в минимизации риска ответов, которые могут привести к вредоносным действиям. Однако он может привести к недостаткам в удобочитаемости, особенно при работе с запросами, имеющими неясную или двойственную цель. Эта слабость может привести к серьезным ошибкам в работе модели, особенно в областях, требующих высокой степени точности, таких как биология или кибербезопасность. Из этого рождается мотивация для разработки новых подходов к обучению моделей. Одним из таких подходов является safe-completion, который фокусируется на получении безопасных и полезных ответов, а не на определении порога отказа. Этот подход может сделать моделей более прочными и эффективными в работе с запросами, которые требуют более тонкого понимания цели пользователя. ########################## ## Метод ########################## Методология safe-completion основывается на том, чтобы модель при обработке запроса работала не только на основе цели пользователя, но и на основе выводимого ответа. Для этого вводятся специальные механизмы, которые позволяют модели оптимизировать ответ не только по понятию пользовательского ввода, но и по свойству ответа. Использовались различные методы обучения, включая методы градиентного спуска и методы глубокого обучения на логических задачах. Структура модели включает в себя несколько слоев нейронных сетей, которые работают вместе для процесса обучения. Модель обучалась на больших объемах данных, включающих как безопасные, так и возможно вредоносные запросы. Был разработан специальный алгоритм, который избегал традиционных подходов к определению порогов отказа и вместо этого сосредотачивался на оптимизации критериев безопасности и полезности ответа. Кроме того, для эффективного тестирования были применены различные методы эмпирической оценки, такие как метрики безопасности и метрики полезности ответа. Эти методы были использованы для оценки эффективности модели в различных сценариях, включая сценарии с двойственной целью запроса. ########################## ## Результаты ##########################

Abstract

Large Language Models used in ChatGPT have traditionally been trained to learn a refusal boundary: depending on the user's intent, the model is taught to either fully comply or outright refuse. While this is a strong mitigation for explicitly malicious prompts, focusing safety training on refusals can lead to brittleness for prompts with obscured user intent. Binary refusal boundaries are especially ill-suited for dual-use cases (such as biology or cybersecurity), where a user request can be answered safely at a high level, but in some cases can lead to malicious uplift if sufficiently detailed or actionable. As an alternative, we propose safe-completions: a safety-training approach that centers on the safety of the assistant's output, rather than a binary classification of the user's intent. Safe-completions seek to maximize helpfulness within the safety policy's constraints. We incorporated this approach into GPT-5 and find that across both production comparisons and internally controlled experiments, safe-completion training improves safety (especially on dual-use prompts), reduces the severity of residual safety failures, and substantially increases model helpfulness.

Ссылки и действия