Improving LLM Safety and Helpfulness using SFT and DPO: A Study on OPT-350M

2509.09055v1 cs.CL, cs.AI, cs.LG 2025-09-13

Авторы:

Piyush Pant

Резюме на русском

## Контекст Настоящее исследование рассматривает проблему безопасности и эффективности технологий генеративных языковых моделей (LLM). Одной из основных проблем является возможность моделей выдавать опасные или неуместные ответы. Чтобы улучшить эти аспекты, развиваются методы адаптации моделей к конкретным потребностям пользователей. Одним из таких подходов является руководственная оптимизация на основе награды (Reward Model-based Optimization). Тем не менее, существуют проблемы, такие как недостаточная предсказательная способность моделей и нестабильность результатов в зависимости от выбранных методов. Это исследование опровергает эти проблемы, показывая, как модель OPT-350M может быть улучшена с помощью сочетания Supervised Fine-Tuning (SFT) и Direct Preference Optimization (DPO). ## Метод Для решения задачи были использованы техники Supervised Fine-Tuning (SFT) и Direct Preference Optimization (DPO). Эти методы используются для обучения модели OPT-350M, улучшая её безопасность и полезность. Модель OPT-350M была обучена с использованием данных из Anthropic Helpful-Harmless RLHF dataset. Для оценки результатов были введены новые метрики: Harmlessness Rate (HmR), Helpfulness Rate (HpR) и Combined Alignment Score (CAS). Для обучения использовались две модели: одна базовая и другая, комбинирующая SFT и DPO. Эксперименты проводились с учётом ограничений ресурсов, таких как ограниченный объём GPU. ## Результаты Эксперименты показали, что метод SFT демонстрирует лучшую безопасность (HmR), но направленный подход DPO даёт более высокую полезность (HpR). Комбинированный подход SFT+DPO позволил добиться лучшей связности результатов (CAS), чтобы обеспечить как безопасность, так и полезность. Однако есть проблемы, такие как нестабильность результатов в зависимости от настроек и недостаток ресурсов. Несмотря на это, комбинированный подход даёт более глубокую и стабильную лингвистическую модель для более безопасного и полезного использования. ## Значимость Улучшенная модель может использоваться в различных приложениях, таких как помощь в технических вопросах, создание контента и образовательные цели. Её особенностью является более высокая уверенность в том, что модель даёт безопасные и полезные ответы. Это может значительно улучшить качество сервисов, в которых используются генеративные технологии. ## Выводы Основные достижения включают в себя разработку эффективной модели, объединяющей SFT и DPO, для улучшения безопасности и полезности языковых моделей. Исследование также показало значимость новых метрик для оценки моделей. В дальнейшем будет рассматриваться улучшение методов обучения и устранение проблем с ресурсами для более стабильных и то

Abstract

This research investigates the effectiveness of alignment techniques, Supervised Fine-Tuning (SFT), Direct Preference Optimization (DPO), and a combined SFT+DPO approach on improving the safety and helpfulness of the OPT-350M language model. Utilizing the Anthropic Helpful-Harmless RLHF dataset, we train and evaluate four models: the base OPT350M, an SFT model, a DPO model, and a model trained with both SFT and DPO. We introduce three key evaluation metrics: Harmlessness Rate (HmR), Helpfulness Rate (HpR), and a Combined Alignment Score (CAS), all derived from reward model outputs. The results show that while SFT outperforms DPO, The combined SFT+DPO model outperforms all others across all metrics, demonstrating the complementary nature of these techniques. Our findings also highlight challenges posed by noisy data, limited GPU resources, and training constraints. This study offers a comprehensive view of how fine-tuning strategies affect model alignment and provides a foundation for more robust alignment pipelines in future work.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Improving LLM Safety and Helpfulness using SFT and DPO: A Study on OPT-350M

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Arbitrage: Efficient Reasoning via Advantage-Aware Speculation

Structured Document Translation via Format Reinforcement Learning

Principled RL for Diffusion LLMs Emerges from a Sequence-Level Perspective

Agreement-Constrained Probabilistic Minimum Bayes Risk Decoding

SUPERChem: A Multimodal Reasoning Benchmark in Chemistry

Навигация