Mitigating Attention Hacking in Preference-Based Reward Modeling via Interaction Distillation

2508.02618v1 cs.CL 2025-08-09
Авторы:

Jianxiang Zang, Meiling Ning, Shihan Dou, Jiazheng Zhang, Tao Gui, Qi Zhang, Xuanjing Huang

Резюме на русском

Научная статья **"Mitigating Attention Hacking in Preference-Based Reward Modeling via Interaction Distillation"** адресует проблему недостаточной точности вознаграждений в моделировании предпочтений (preference modeling) в reinforcement learning from human feedback (RLHF) для тренировки больших лингвистических моделей (LLMs). Основные ограничения в текущих моделях заключаются в том, что однонаправленный секвенциальный взгляд (forward-decaying attention) decoder-only архитектур и отсутствие токен-уровня взаимодействия между выбранными и отклоненными последовательностями приводят к уязвимости знаков вознаграждения от ложных сигналов акцента. Работа предлагает **"Interaction Distillation"**, новую структуру тренировки, включающую интерактивное естественное понимание (natural language understanding) в качестве учительской модели, которая обеспечивает расширенные межтокенные взаимодействия через полный аттенцион. Эта система учитель-ученик оптимизирует точность взаимодействий в модели предпочтений. Исследования показали, что данный подход обеспечивает более стабильные и обобщаемые вознаграждения, более эффективно решая основные ограничения в моделях предпочтений, чем существующие методы, которые стремятся устранить шум в данных.

Abstract

The reward model (RM), as the core component of reinforcement learning from human feedback (RLHF) for large language models (LLMs), responsible for providing reward signals to generated responses. However, mainstream preference modeling in RM is inadequate in terms of token-level interaction, making its judgment signals vulnerable to being hacked by misallocated attention to context. This stems from two fundamental limitations: (1) Current preference modeling employs decoder-only architectures, where the unidirectional causal attention mechanism leads to forward-decaying intra-sequence attention within the prompt-response sequence. (2) The independent Siamese-encoding paradigm induces the absence of token-level inter-sequence attention between chosen and rejected sequences. To address this "attention hacking", we propose "Interaction Distillation", a novel training framework for more adequate preference modeling through attention-level optimization. The method introduces an interaction-based natural language understanding model as the teacher to provide sophisticated token interaction patterns via comprehensive attention, and guides the preference modeling to simulate teacher model's interaction pattern through an attentional alignment objective. Through extensive experiments, interaction distillation has demonstrated its ability to provide more stable and generalizable reward signals compared to state-of-the-art RM optimization methods that target data noise, highlighting the attention hacking constitute a more fundamental limitation in RM.

Ссылки и действия