Behind RoPE: How Does Causal Mask Encode Positional Information?
2509.21042v1
cs.CL, cs.LG
2025-09-27
Авторы:
Junu Kim, Xiao Liu, Zhenghao Lin, Lei Ji, Yeyun Gong, Edward Choi
Резюме на русском
#### Контекст
Позиционная информация является ключевым компонентом работы трансформеров, особенно в контексте декодеров. Она позволяет моделям понимать отношения между словами в зависимости от их порядка в последовательности. Основной механизм, применяемый для представления позиционной информации, — это эксплиситные позиционные кодировки, такие как RoPE (Rotary Position Embeddings). Однако существуют дополнительные источники позиционной информации, которые могут повлиять на поведение моделей. Одним из таких источников является касуальная маска, которая широко используется в секвенциальных моделях для обеспечения секвенциального доступа к данным. Несмотря на то, что касуальная маска не является параметрическим компонентом, она может влиять на поведение моделей, оказывая влияние на представление позиции в последовательности.
#### Метод
Для исследования работы касуальной маски в трансформерах было проведено теоретическое и эмпирическое исследование. Теоретический подход заключался в построении моделей, позволяющих проанализировать отношение между касуальной маской и позиционными эффектами в поведении моделей. Эмпирические эксперименты проводились с использованием современных текстовых моделей, включая модели с RoPE и без него. Был проанализирован влияние касуальной маски на поведение моделей, в том числе на взаимодействие с RoPE, через измерение позиционных паттернов в поведении модели.
#### Результаты
Исследования показали, что касуальная маска может индуцировать позиционные паттерны в поведении моделей, даже если в основной последовательности нет какой-либо структуры. Это проявляется в виде позиционно-зависимых паттернов в аттенционных скорах. Эксперименты показали, что модели, обученные с касуальной маской, не только используют ее в качестве дополнительного источника позиционной информации, но и дальше усиливают эти паттерны в процессе обучения. Было также выявлено, что во взаимодействии с RoPE, касуальная маска может искажать относительные паттерны внимания, превращая их в более абсолютные.
#### Значимость
Результаты имеют значительное значение для понимания роли касуальной маски в трансформерах. Это означает, что не только эксплицитные позиционные кодировки, но и непараметрические компоненты, такие как касуальная маска, могут сильно повлиять на поведение моделей. Эти находки могут быть применены в различных областях, где позиционная информация играет ключевую роль, такие как текстовый пониманий, генерация текста и другие задачи, использующие последовательности.
#### Выводы
Основной вывод стать
Abstract
While explicit positional encodings such as RoPE are a primary source of
positional information in Transformer decoders, the causal mask also provides
positional information. In this work, we prove that the causal mask can induce
position-dependent patterns in attention scores, even without parameters or
causal dependency in the input. Our theoretical analysis indicates that the
induced attention pattern tends to favor nearby query-key pairs, mirroring the
behavior of common positional encodings. Empirical analysis confirms that
trained models exhibit the same behavior, with learned parameters further
amplifying these patterns. Notably, we found that the interaction of causal
mask and RoPE distorts RoPE's relative attention score patterns into
non-relative ones. We consistently observed this effect in modern large
language models, suggesting the importance of considering the causal mask as a
source of positional information alongside explicit positional encodings.
Ссылки и действия
Дополнительные ресурсы: