Mitigating Attention Hacking in Preference-Based Reward Modeling via Interaction Distillation
2508.02618v1
cs.CL
2025-08-09
Авторы:
Jianxiang Zang, Meiling Ning, Shihan Dou, Jiazheng Zhang, Tao Gui, Qi Zhang, Xuanjing Huang
Резюме на русском
Научная статья **"Mitigating Attention Hacking in Preference-Based Reward Modeling via Interaction Distillation"** адресует проблему недостаточной точности вознаграждений в моделировании предпочтений (preference modeling) в reinforcement learning from human feedback (RLHF) для тренировки больших лингвистических моделей (LLMs). Основные ограничения в текущих моделях заключаются в том, что однонаправленный секвенциальный взгляд (forward-decaying attention) decoder-only архитектур и отсутствие токен-уровня взаимодействия между выбранными и отклоненными последовательностями приводят к уязвимости знаков вознаграждения от ложных сигналов акцента. Работа предлагает **"Interaction Distillation"**, новую структуру тренировки, включающую интерактивное естественное понимание (natural language understanding) в качестве учительской модели, которая обеспечивает расширенные межтокенные взаимодействия через полный аттенцион. Эта система учитель-ученик оптимизирует точность взаимодействий в модели предпочтений. Исследования показали, что данный подход обеспечивает более стабильные и обобщаемые вознаграждения, более эффективно решая основные ограничения в моделях предпочтений, чем существующие методы, которые стремятся устранить шум в данных.
Abstract
The reward model (RM), as the core component of reinforcement learning from
human feedback (RLHF) for large language models (LLMs), responsible for
providing reward signals to generated responses. However, mainstream preference
modeling in RM is inadequate in terms of token-level interaction, making its
judgment signals vulnerable to being hacked by misallocated attention to
context. This stems from two fundamental limitations: (1) Current preference
modeling employs decoder-only architectures, where the unidirectional causal
attention mechanism leads to forward-decaying intra-sequence attention within
the prompt-response sequence. (2) The independent Siamese-encoding paradigm
induces the absence of token-level inter-sequence attention between chosen and
rejected sequences. To address this "attention hacking", we propose
"Interaction Distillation", a novel training framework for more adequate
preference modeling through attention-level optimization. The method introduces
an interaction-based natural language understanding model as the teacher to
provide sophisticated token interaction patterns via comprehensive attention,
and guides the preference modeling to simulate teacher model's interaction
pattern through an attentional alignment objective. Through extensive
experiments, interaction distillation has demonstrated its ability to provide
more stable and generalizable reward signals compared to state-of-the-art RM
optimization methods that target data noise, highlighting the attention hacking
constitute a more fundamental limitation in RM.
Ссылки и действия
Дополнительные ресурсы: