Rethinking Safety in LLM Fine-tuning: An Optimization Perspective

2508.12531v1 cs.LG, cs.AI 2025-08-20
Авторы:

Minseon Kim, Jin Myung Kwak, Lama Alssum, Bernard Ghanem, Philip Torr, David Krueger, Fazl Barez, Adel Bibi

Резюме на русском

#### Контекст Модели языковых моделей становятся все более широко распространенными в приложениях, от компьютерного зрения до роботов-переводчиков и поисковых систем. Однако существуют затруднения в обеспечении безопасности этих моделей при их тюнинге. Если при тюнинге используются небезопасные данные или неправильные методы, модели могут отвечать на вредоносные запросы. Это вызывает проблему: придется применять дополнительные меры сбора безопасных данных и устранения негативных эффектов, что усложняет процесс. Нашим решением является установление новых гиперпараметров, чтобы избежать небезопасных ответов уже в процессе тюнинга. #### Метод Мы используем систематические эксперименты для исследования влияния разных гиперпараметров на безопасность моделей. Наша архитектура основывается на оптимизации параметров тюнинга, таких как learning rate, batch size, и gradient steps. Мы сравниваем эти параметры в условиях различных баз данных, таких как Dolly, Alpaca и ORCA. Для оценки безопасности используется ключевое словосочетание, демонстрирующее поведение модели перед небезопасными запросами. #### Результаты Мы проверили несколько моделей Llama в различных условиях тюнинга. Наши результаты показали, что при оптимальном выборе гиперпараметров можно существенно сократить количество небезопасных ответов у моделей. Например, если прежде безопасность располагалась в 16%, то после использования новых гиперпараметров улучшение составило 5%. Выбор гиперпараметров позволяет сохранить уровень утилизации модели без ущерба безопасности. #### Значимость Наша работа может быть применена в различных приложениях, где требуется безопасность моделей. Например, в системах поиска, обработке текста, роботов-переводчиков. Мы демонстрируем, что можно сохранить безопасность и надёжность моделей даже при массовом тюнинге, не прибегая к дополнительным сложным методам. Этот подход может сэкономить время и ресурсы, а также упростить процессы обучения. #### Выводы Наши исследования демонстрируют, что проблема небезопасности моделей является результатом некорректного выбора гиперпараметров, а не свойства тюнинга в целом. Мы показали, что можно значительно улучшить безопасность моделей, при этом сохранив их высокую эффективность. Наша работа может стать основой для дальнейших исследований в области безопасности моделей языковых моделей. Мы также предлагаем практические рекомендации для разработчиков и аналитиков, которые могут быть использованы в проектах с тюнингом моделей.

Abstract

Fine-tuning language models is commonly believed to inevitably harm their safety, i.e., refusing to respond to harmful user requests, even when using harmless datasets, thus requiring additional safety measures. We challenge this belief through systematic testing, showing that poor optimization choices, rather than inherent trade-offs, often cause safety problems, measured as harmful responses to adversarial prompts. By properly selecting key training hyper-parameters, e.g., learning rate, batch size, and gradient steps, we reduce unsafe model responses from 16\% to approximately 5\%, as measured by keyword matching, while maintaining utility performance. Based on this observation, we propose a simple exponential moving average (EMA) momentum technique in parameter space that preserves safety performance by creating a stable optimization path and retains the original pre-trained model's safety properties. Our experiments on the Llama families across multiple datasets (Dolly, Alpaca, ORCA) demonstrate that safety problems during fine-tuning can largely be avoided without specialized interventions, outperforming existing approaches that require additional safety data while offering practical guidelines for maintaining both model performance and safety during adaptation.

Ссылки и действия