Token Buncher: Shielding LLMs from Harmful Reinforcement Learning Fine-Tuning
2508.20697v1
cs.LG, cs.CL
2025-08-29
Авторы:
Weitao Feng, Lixu Wang, Tianyi Wei, Jie Zhang, Chongyang Gao, Sinong Zhan, Peizhuo Lv, Wei Dong
Резюме на русском
## Контекст
Большие языковые модели (LLMs) становятся все более сильными, но при этом растут и риски их злоупотребления. Одним из наиболее опасных направлений злоупотребления является их художественная финейрования с помощью роботов быстрого обучения (RL). Несмотря на то, что большинство ранее проведенных исследований считают, что атакующие лица полагаются на супервизированное художественное обучение (SFT) для таких целей, авторы этой работы показали, что RL дает злоумышленникам более эффективные способы сбить модели с безопасного тренда и помогать исполнению угрожающих задач, при одинаковых бюджетах вычислений. Чтобы предотвратить это новое рискованное направление, разработано TokenBuncher — первую эффективную защиту, ориентированную на RL-based harmful fine-tuning.
## Метод
Решение TokenBuncher основывается на том, чтобы подавить основу, на которой полагается RL — неопределенность модели в ответах. Для этого «токен-нойзер» (Token Noiser) мешает системе определять четко свои модели, а затем используется энтропия в качестве награды в RL (Entropy-as-Reward RL). Эта методика ограничивает возможность модели сформировать лучшую стратегию для выполнения уже готовых злоумышленников планов. Это защита работает, начиная с ограничения на экспертной сфере злоумышленников, и продвигается к более сложным задачам.
## Результаты
Эксперименты проводились на нескольких моделях и RL-алгоритмах. Результаты показали, что TokenBuncher успешно ликвидирует мошеннические цели RL-финейрования, без потери полезности для бенгинаных задач и возможности в дальнейшем финейровании. Кроме того, он эффективно снижает бюджет награды для злоумышленников, делая их задачи более сложной и менее выгодной. Эти результаты подтверждают, что RL-based harmful fine-tuning создает большую системный риск, чем SFT, и что TokenBuncher является эффективным средством защиты.
## Значимость
TokenBuncher можно применить в различных областях, где есть риск злоупотребления языковыми моделями. Он предотвращает распространение угрозы, ускоряя достижение безопасных результатов и гарантируя универсальную защиту. Эта защита позволяет LLMs более эффективно и безопасно использоваться в различных сферах, включая медицину, финансы и образование.
## Выводы
Выводы работы показывают, что RL-based harmful fine-tuning является значительно более рискованным, чем SFT, и что TokenBuncher является эффективным средством для защиты LLMs от таких атак. Будущие исследования будут фокусироваться на расширении этой защиты на более широкий набор моделей и сценариев, а также на улучшении ее эффективности и объема.
Abstract
As large language models (LLMs) continue to grow in capability, so do the
risks of harmful misuse through fine-tuning. While most prior studies assume
that attackers rely on supervised fine-tuning (SFT) for such misuse, we
systematically demonstrate that reinforcement learning (RL) enables adversaries
to more effectively break safety alignment and facilitate advanced harmful task
assistance, under matched computational budgets. To counter this emerging
threat, we propose TokenBuncher, the first effective defense specifically
targeting RL-based harmful fine-tuning. TokenBuncher suppresses the foundation
on which RL relies: model response uncertainty. By constraining uncertainty,
RL-based fine-tuning can no longer exploit distinct reward signals to drive the
model toward harmful behaviors. We realize this defense through
entropy-as-reward RL and a Token Noiser mechanism designed to prevent the
escalation of expert-domain harmful capabilities. Extensive experiments across
multiple models and RL algorithms show that TokenBuncher robustly mitigates
harmful RL fine-tuning while preserving benign task utility and finetunability.
Our results highlight that RL-based harmful fine-tuning poses a greater
systemic risk than SFT, and that TokenBuncher provides an effective and general
defense.
Ссылки и действия
Дополнительные ресурсы: