From Hard Refusals to Safe-Completions: Toward Output-Centric Safety Training
2508.09224v1
cs.CY, cs.AI, cs.CL
2025-08-15
Авторы:
Yuan Yuan, Tina Sriskandarajah, Anna-Luisa Brakman, Alec Helyar, Alex Beutel, Andrea Vallone, Saachi Jain
Резюме на русском
##########################
## Контекст
##########################
Лучшие в классе технологии ИИ, такие как ChatGPT, на основе бо LLM, широко используются в различных сферах, от образования до бизнеса. Однако существуют значительные проблемы, связанные с их безопасностью. Например, некоторые запросы могут быть адресованы не только для получения полезных ответов, но и для злонамеренных целей. В связи с этим, существуют трудности в обеспечении безопасности моделей, особенно при работе с запросами, имеющими двойственные значения.
Традиционно, модели LLM обучаются определять порог отказа: либо выполняют запрос, либо отказываются от него. Этот подход эффективен в минимизации риска ответов, которые могут привести к вредоносным действиям. Однако он может привести к недостаткам в удобочитаемости, особенно при работе с запросами, имеющими неясную или двойственную цель. Эта слабость может привести к серьезным ошибкам в работе модели, особенно в областях, требующих высокой степени точности, таких как биология или кибербезопасность.
Из этого рождается мотивация для разработки новых подходов к обучению моделей. Одним из таких подходов является safe-completion, который фокусируется на получении безопасных и полезных ответов, а не на определении порога отказа. Этот подход может сделать моделей более прочными и эффективными в работе с запросами, которые требуют более тонкого понимания цели пользователя.
##########################
## Метод
##########################
Методология safe-completion основывается на том, чтобы модель при обработке запроса работала не только на основе цели пользователя, но и на основе выводимого ответа. Для этого вводятся специальные механизмы, которые позволяют модели оптимизировать ответ не только по понятию пользовательского ввода, но и по свойству ответа. Использовались различные методы обучения, включая методы градиентного спуска и методы глубокого обучения на логических задачах.
Структура модели включает в себя несколько слоев нейронных сетей, которые работают вместе для процесса обучения. Модель обучалась на больших объемах данных, включающих как безопасные, так и возможно вредоносные запросы. Был разработан специальный алгоритм, который избегал традиционных подходов к определению порогов отказа и вместо этого сосредотачивался на оптимизации критериев безопасности и полезности ответа.
Кроме того, для эффективного тестирования были применены различные методы эмпирической оценки, такие как метрики безопасности и метрики полезности ответа. Эти методы были использованы для оценки эффективности модели в различных сценариях, включая сценарии с двойственной целью запроса.
##########################
## Результаты
##########################
Abstract
Large Language Models used in ChatGPT have traditionally been trained to
learn a refusal boundary: depending on the user's intent, the model is taught
to either fully comply or outright refuse. While this is a strong mitigation
for explicitly malicious prompts, focusing safety training on refusals can lead
to brittleness for prompts with obscured user intent. Binary refusal boundaries
are especially ill-suited for dual-use cases (such as biology or
cybersecurity), where a user request can be answered safely at a high level,
but in some cases can lead to malicious uplift if sufficiently detailed or
actionable. As an alternative, we propose safe-completions: a safety-training
approach that centers on the safety of the assistant's output, rather than a
binary classification of the user's intent. Safe-completions seek to maximize
helpfulness within the safety policy's constraints. We incorporated this
approach into GPT-5 and find that across both production comparisons and
internally controlled experiments, safe-completion training improves safety
(especially on dual-use prompts), reduces the severity of residual safety
failures, and substantially increases model helpfulness.
Ссылки и действия
Дополнительные ресурсы: