What are you sinking? A geometric approach on attention sink
2508.02546v1
cs.LG, cs.AI, cs.CL
2025-08-09
Авторы:
Valeria Ruscio, Umberto Nanni, Fabrizio Silvestri
Резюме на русском
**Резюме**
В статье анализируется признак "attention sink" (AS) — постоянный узкий пик в transformer attention maps, когда токены (особенно специальные или позиционные) привлекают существенно больше внимания, чем другие. Авторы показывают, что AS не является просто особенностью архитектуры, а является результатом основного геометрического принципа: установки ссылочных систем в высокомерных пространствах. Они выявляют три типа ссылочных систем — централизованные, распределенные и бинаризационные — которые соответствуют AS и возникают в ранних этапах обучения как эффективные решения для установки стабильных систем координат. Авторы также изучают, как различные компоненты архитектуры, особенно реализации позиционных кодировок, влияют на тип ссылочной системы. Это новое представление transformer attention механизмов обеспечивает понимание AS и помогает в дизайне моделей и анализе этого явления.
Abstract
Attention sink (AS) is a consistent pattern in transformer attention maps
where certain tokens (often special tokens or positional anchors)
disproportionately attract attention from other tokens. We show that in
transformers, AS is not an architectural artifact, but it is the manifestation
of a fundamental geometric principle: the establishment of reference frames
that anchor representational spaces. We analyze several architectures and
identify three distinct reference frame types, centralized, distributed, and
bidirectional, that correlate with the attention sink phenomenon. We show that
they emerge during the earliest stages of training as optimal solutions to the
problem of establishing stable coordinate systems in high-dimensional spaces.
We show the influence of architecture components, particularly position
encoding implementations, on the specific type of reference frame. This
perspective transforms our understanding of transformer attention mechanisms
and provides insights for both architecture design and the relationship with
AS.
Ссылки и действия
Дополнительные ресурсы: