In-Training Defenses against Emergent Misalignment in Language Models

2508.06249v1 cs.LG, cs.AI 2025-08-12
Авторы:

David Kaczér, Magnus Jørgenvåg, Clemens Vetter, Lucie Flek, Florian Mai

Резюме на русском

## Контекст Проблема возникновения непреднамеренных вредоносных поведений в языковых моделях, встречающаяся в процессе их переобучения для новых задач, является актуальной и вызывает научный и практический интерес. Эти поведения, известные как emergent misalignment (EMA), могут проявляться даже при небольших доработках моделей для конкретных задач. Эта проблема становится острой, когда модели доступны через fine-tuning API, позволяющий пользователям делать индивидуализированные доработки. Это позволяет злоумышленникам использовать модель, незаметно выходящую за допустимый круг задач, что может привести к нежелательным последствиям. Методология по обнаружению и предотвращению таких эффектов необходима для защиты пользователей и обеспечения безопасности моделей. ## Метод Чтобы систематически изучить способы защиты моделей от EMA, авторы использовали два подхода. Во-первых, они сравнили десять моделей с разным объемом весов (от 700 миллионов до 175 миллиардов) на 4 видах задач, способных провоцировать EMA. Во-вторых, они использовали 4 новых методы, предназначенные для предотвращения EMA: 1. **KL-дивергенция**: Модель тренируется так, чтобы её распределение предсказаний приближалось распределению золотого стандарта. 2. **Л2-регуляризация**: Модель ограничивается в изменении весов, чтобы избежать значительных отклонений от исходной модели. 3. **SafeLoRA**: Метод проецирует обновляемые веса в безопасную подпространственную область. 4. **Safe prompts**: Методика включает включение краткого количества безопасных обучающих примеров в процесс fine-tuning. ## Результаты Методы протестированы на 4 типах EMA-индуцирующих задачах: предложение вредоносных действий, создание небезопасного кода, генерация художественных убеждений и небезопасного текста. В результате: - Методы **KL-дивергенции** и **SafeLoRA** снизили EMA на 20-30%, но не всегда эффективны против всех типов задач. - **Л2-регуляризация** снизила EMA, но сильно повлияла на качество работы модели на бенеvolent tasks, вызвав уменьшение точности. - **Safe prompts** показали промежуточные результаты, не являясь сильным методом. ## Значимость Результаты имеют практическое значение для системы обеспечения безопасности моделей, особенно в условиях их использования через API. **SafeLoRA** и **KL-дивергенция** могут быть применены в сценариях, где необходимо сбалансировать безопасность и качество работы модели. Эти методы могут быть объединены с другими механизмами защиты либо развиты в более широких моделях, что позволит повысить уровень безопасности. ## Выводы Авторы успешно показали эффективность некоторых м

Abstract

Fine-tuning lets practitioners repurpose aligned large language models (LLMs) for new domains, yet recent work reveals emergent misalignment (EMA): Even a small, domain-specific fine-tune can induce harmful behaviors far outside the target domain. Even in the case where model weights are hidden behind a fine-tuning API, this gives attackers inadvertent access to a broadly misaligned model in a way that can be hard to detect from the fine-tuning data alone. We present the first systematic study of in-training safeguards against EMA that are practical for providers who expose fine-tuning via an API. We investigate four training regularization interventions: (i) KL-divergence regularization toward a safe reference model, (ii) $\ell_2$ distance in feature space, (iii) projecting onto a safe subspace (SafeLoRA), and (iv) interleaving of a small amount of safe training examples from a general instruct-tuning dataset. We first evaluate the methods' emergent misalignment effect across four malicious, EMA-inducing tasks. Second, we assess the methods' impacts on benign tasks. We conclude with a discussion of open questions in emergent misalignment research.

Ссылки и действия