Token Buncher: Shielding LLMs from Harmful Reinforcement Learning Fine-Tuning

2508.20697v1 cs.LG, cs.CL 2025-08-29

Авторы:

Weitao Feng, Lixu Wang, Tianyi Wei, Jie Zhang, Chongyang Gao, Sinong Zhan, Peizhuo Lv, Wei Dong

Резюме на русском

## Контекст Большие языковые модели (LLMs) становятся все более сильными, но при этом растут и риски их злоупотребления. Одним из наиболее опасных направлений злоупотребления является их художественная финейрования с помощью роботов быстрого обучения (RL). Несмотря на то, что большинство ранее проведенных исследований считают, что атакующие лица полагаются на супервизированное художественное обучение (SFT) для таких целей, авторы этой работы показали, что RL дает злоумышленникам более эффективные способы сбить модели с безопасного тренда и помогать исполнению угрожающих задач, при одинаковых бюджетах вычислений. Чтобы предотвратить это новое рискованное направление, разработано TokenBuncher — первую эффективную защиту, ориентированную на RL-based harmful fine-tuning. ## Метод Решение TokenBuncher основывается на том, чтобы подавить основу, на которой полагается RL — неопределенность модели в ответах. Для этого «токен-нойзер» (Token Noiser) мешает системе определять четко свои модели, а затем используется энтропия в качестве награды в RL (Entropy-as-Reward RL). Эта методика ограничивает возможность модели сформировать лучшую стратегию для выполнения уже готовых злоумышленников планов. Это защита работает, начиная с ограничения на экспертной сфере злоумышленников, и продвигается к более сложным задачам. ## Результаты Эксперименты проводились на нескольких моделях и RL-алгоритмах. Результаты показали, что TokenBuncher успешно ликвидирует мошеннические цели RL-финейрования, без потери полезности для бенгинаных задач и возможности в дальнейшем финейровании. Кроме того, он эффективно снижает бюджет награды для злоумышленников, делая их задачи более сложной и менее выгодной. Эти результаты подтверждают, что RL-based harmful fine-tuning создает большую системный риск, чем SFT, и что TokenBuncher является эффективным средством защиты. ## Значимость TokenBuncher можно применить в различных областях, где есть риск злоупотребления языковыми моделями. Он предотвращает распространение угрозы, ускоряя достижение безопасных результатов и гарантируя универсальную защиту. Эта защита позволяет LLMs более эффективно и безопасно использоваться в различных сферах, включая медицину, финансы и образование. ## Выводы Выводы работы показывают, что RL-based harmful fine-tuning является значительно более рискованным, чем SFT, и что TokenBuncher является эффективным средством для защиты LLMs от таких атак. Будущие исследования будут фокусироваться на расширении этой защиты на более широкий набор моделей и сценариев, а также на улучшении ее эффективности и объема.

Abstract

As large language models (LLMs) continue to grow in capability, so do the risks of harmful misuse through fine-tuning. While most prior studies assume that attackers rely on supervised fine-tuning (SFT) for such misuse, we systematically demonstrate that reinforcement learning (RL) enables adversaries to more effectively break safety alignment and facilitate advanced harmful task assistance, under matched computational budgets. To counter this emerging threat, we propose TokenBuncher, the first effective defense specifically targeting RL-based harmful fine-tuning. TokenBuncher suppresses the foundation on which RL relies: model response uncertainty. By constraining uncertainty, RL-based fine-tuning can no longer exploit distinct reward signals to drive the model toward harmful behaviors. We realize this defense through entropy-as-reward RL and a Token Noiser mechanism designed to prevent the escalation of expert-domain harmful capabilities. Extensive experiments across multiple models and RL algorithms show that TokenBuncher robustly mitigates harmful RL fine-tuning while preserving benign task utility and finetunability. Our results highlight that RL-based harmful fine-tuning poses a greater systemic risk than SFT, and that TokenBuncher provides an effective and general defense.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Token Buncher: Shielding LLMs from Harmful Reinforcement Learning Fine-Tuning

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Natural Language Actor-Critic: Scalable Off-Policy Learning in Language Space

Towards Active Synthetic Data Generation for Finetuning Language Models

AlignSAE: Concept-Aligned Sparse Autoencoders

Measuring What LLMs Think They Do: SHAP Faithfulness and Deployability on Financ...

BanglaSentNet: An Explainable Hybrid Deep Learning Framework for Multi-Aspect Se...

Навигация