Attention Basin: Why Contextual Position Matters in Large Language Models

2508.05128v1 cs.CL, cs.AI 2025-08-09
Авторы:

Zihao Yi, Delong Zeng, Zhenqing Ling, Haohao Luo, Zhe Xu, Wei Liu, Jian Luan, Wanxia Cao, Ying Shen

Резюме на русском

--- title: КОНТЕКСТ И ПРОБЛЕМАТИКА --- ### message ## КОНТЕКСТ И ПРОБЛЕМАТИКА Large Language Models (LLMs) являются мощным инструментом в области обработки естественного языка, но их производительность чувствительна к контексту и структуре входных данных. Одной из ключевых проблем является позиционная зависимость, когда информация, расположенная в определённых позициях ввода, получает непропорциональное внимание модели. Это может приводить к неоптимальному использованию критически важной информации, особенно в таких задачах, как многошаговая обработка вопросов (multi-hop QA) и обучение с примерами (few-shot in-context learning). Существующие исследования показали, что LLMs часто предпочитают обрабатывать информацию, расположенную в начале или конце последовательности, игнорируя средние элементы. Такая позиционная асимметрия, называемая в работе "attention basin", может значительно влиять на эффективность моделей. Однако механизмы этой явлености и стратегии её коррекции до сих пор не были полностью изучены. Мотивацией данного исследования является необходимость понимания того, как контекстуальная позиция влияет на внимание LLMs, и разработка практических методов для оптимизации этого процесса. Целью является улучшение производительности моделей без изменения их архитектуры или параметров. ## ПРЕДЛОЖЕННЫЙ МЕТОД В работе предлагается метод Attention-Driven Reranking (AttnRank), который направлен на коррекцию позиционной зависимости LLMs. Метод состоит из двух этапов: 1. **Оценка позиционного внимания**: Используется небольшой калибровочный набор данных для определения внутренних предпочтений модели по вниманию к различным позициям в последовательности. 2. **Реранжирование входных данных**: На основе полученных данных производится перестановка элементов (например, документов или примеров) таким образом, чтобы критически важная информация была расположена в позициях с высоким вниманием модели. AttnRank является модельно-агностичным, не требует дополнительного обучения и может быть легко интегрирован в существующие системы. Он предлагает минимальный вычислительный оверхед и подходит для различных архитектур LLMs. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Исследование проводилось на двух задачах: многошаговой обработке вопросов (multi-hop QA) и обучении с примерами (few-shot in-context learning). Для экспериментов были использованы данные из различных доменов, включая текстовые корпуса и веб-документы. Результаты показали, что AttnRank значительно улучшает производительность моделей на различных архитектурах и масштабах LLMs. Улучшения были зафиксированы на 10 различных моделях, включая облачные и локальные варианты. Метод не требовал изменения параметров моделей, что делает его высокопрактичным. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ AttnRank имеет широкое применение в областях, где критическая информация должна быть эффективно обработана LLMs. Это включает задачи вопросов и ответов, извлечения информации, и автоматическое обобщение текста. Преимущества метода включают в себя простоту интеграции, низкий вычислительный затраты и совместимость с различными моделями. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ Работа демонстрирует важность контекстуальной позиции в обработке информации LLMs и предлагает эффективный метод для её коррекции. Будущие исследования могут фокусироваться на дальнейшем улучшении AttnRank, включая адаптацию для других типов задач и моделей. Также предлагается исследовать влияние других факторов, таких как длина последовательности и тип входных данных, на эффективность метода.

Abstract

The performance of Large Language Models (LLMs) is significantly sensitive to the contextual position of information in the input. To investigate the mechanism behind this positional bias, our extensive experiments reveal a consistent phenomenon we term the attention basin: when presented with a sequence of structured items (e.g., retrieved documents or few-shot examples), models systematically assign higher attention to the items at the beginning and end of the sequence, while neglecting those in the middle. Crucially, our analysis further reveals that allocating higher attention to critical information is key to enhancing model performance. Based on these insights, we introduce Attention-Driven Reranking (AttnRank), a two-stage framework that (i) estimates a model's intrinsic positional attention preferences using a small calibration set, and (ii) reorders retrieved documents or few-shot examples to align the most salient content with these high-attention positions. AttnRank is a model-agnostic, training-free, and plug-and-play method with minimal computational overhead. Experiments on multi-hop QA and few-shot in-context learning tasks demonstrate that AttnRank achieves substantial improvements across 10 large language models of varying architectures and scales, without modifying model parameters or training procedures.

Ссылки и действия