Improving LLM Safety and Helpfulness using SFT and DPO: A Study on OPT-350M
2509.09055v1
cs.CL, cs.AI, cs.LG
2025-09-13
Авторы:
Piyush Pant
Резюме на русском
## Контекст
Настоящее исследование рассматривает проблему безопасности и эффективности технологий генеративных языковых моделей (LLM). Одной из основных проблем является возможность моделей выдавать опасные или неуместные ответы. Чтобы улучшить эти аспекты, развиваются методы адаптации моделей к конкретным потребностям пользователей. Одним из таких подходов является руководственная оптимизация на основе награды (Reward Model-based Optimization). Тем не менее, существуют проблемы, такие как недостаточная предсказательная способность моделей и нестабильность результатов в зависимости от выбранных методов. Это исследование опровергает эти проблемы, показывая, как модель OPT-350M может быть улучшена с помощью сочетания Supervised Fine-Tuning (SFT) и Direct Preference Optimization (DPO).
## Метод
Для решения задачи были использованы техники Supervised Fine-Tuning (SFT) и Direct Preference Optimization (DPO). Эти методы используются для обучения модели OPT-350M, улучшая её безопасность и полезность. Модель OPT-350M была обучена с использованием данных из Anthropic Helpful-Harmless RLHF dataset. Для оценки результатов были введены новые метрики: Harmlessness Rate (HmR), Helpfulness Rate (HpR) и Combined Alignment Score (CAS). Для обучения использовались две модели: одна базовая и другая, комбинирующая SFT и DPO. Эксперименты проводились с учётом ограничений ресурсов, таких как ограниченный объём GPU.
## Результаты
Эксперименты показали, что метод SFT демонстрирует лучшую безопасность (HmR), но направленный подход DPO даёт более высокую полезность (HpR). Комбинированный подход SFT+DPO позволил добиться лучшей связности результатов (CAS), чтобы обеспечить как безопасность, так и полезность. Однако есть проблемы, такие как нестабильность результатов в зависимости от настроек и недостаток ресурсов. Несмотря на это, комбинированный подход даёт более глубокую и стабильную лингвистическую модель для более безопасного и полезного использования.
## Значимость
Улучшенная модель может использоваться в различных приложениях, таких как помощь в технических вопросах, создание контента и образовательные цели. Её особенностью является более высокая уверенность в том, что модель даёт безопасные и полезные ответы. Это может значительно улучшить качество сервисов, в которых используются генеративные технологии.
## Выводы
Основные достижения включают в себя разработку эффективной модели, объединяющей SFT и DPO, для улучшения безопасности и полезности языковых моделей. Исследование также показало значимость новых метрик для оценки моделей. В дальнейшем будет рассматриваться улучшение методов обучения и устранение проблем с ресурсами для более стабильных и то
Abstract
This research investigates the effectiveness of alignment techniques,
Supervised Fine-Tuning (SFT), Direct Preference Optimization (DPO), and a
combined SFT+DPO approach on improving the safety and helpfulness of the
OPT-350M language model. Utilizing the Anthropic Helpful-Harmless RLHF dataset,
we train and evaluate four models: the base OPT350M, an SFT model, a DPO model,
and a model trained with both SFT and DPO. We introduce three key evaluation
metrics: Harmlessness Rate (HmR), Helpfulness Rate (HpR), and a Combined
Alignment Score (CAS), all derived from reward model outputs. The results show
that while SFT outperforms DPO, The combined SFT+DPO model outperforms all
others across all metrics, demonstrating the complementary nature of these
techniques. Our findings also highlight challenges posed by noisy data, limited
GPU resources, and training constraints. This study offers a comprehensive view
of how fine-tuning strategies affect model alignment and provides a foundation
for more robust alignment pipelines in future work.
Ссылки и действия
Дополнительные ресурсы: