Behind RoPE: How Does Causal Mask Encode Positional Information?

2509.21042v1 cs.CL, cs.LG 2025-09-27

Авторы:

Junu Kim, Xiao Liu, Zhenghao Lin, Lei Ji, Yeyun Gong, Edward Choi

Резюме на русском

#### Контекст Позиционная информация является ключевым компонентом работы трансформеров, особенно в контексте декодеров. Она позволяет моделям понимать отношения между словами в зависимости от их порядка в последовательности. Основной механизм, применяемый для представления позиционной информации, — это эксплиситные позиционные кодировки, такие как RoPE (Rotary Position Embeddings). Однако существуют дополнительные источники позиционной информации, которые могут повлиять на поведение моделей. Одним из таких источников является касуальная маска, которая широко используется в секвенциальных моделях для обеспечения секвенциального доступа к данным. Несмотря на то, что касуальная маска не является параметрическим компонентом, она может влиять на поведение моделей, оказывая влияние на представление позиции в последовательности. #### Метод Для исследования работы касуальной маски в трансформерах было проведено теоретическое и эмпирическое исследование. Теоретический подход заключался в построении моделей, позволяющих проанализировать отношение между касуальной маской и позиционными эффектами в поведении моделей. Эмпирические эксперименты проводились с использованием современных текстовых моделей, включая модели с RoPE и без него. Был проанализирован влияние касуальной маски на поведение моделей, в том числе на взаимодействие с RoPE, через измерение позиционных паттернов в поведении модели. #### Результаты Исследования показали, что касуальная маска может индуцировать позиционные паттерны в поведении моделей, даже если в основной последовательности нет какой-либо структуры. Это проявляется в виде позиционно-зависимых паттернов в аттенционных скорах. Эксперименты показали, что модели, обученные с касуальной маской, не только используют ее в качестве дополнительного источника позиционной информации, но и дальше усиливают эти паттерны в процессе обучения. Было также выявлено, что во взаимодействии с RoPE, касуальная маска может искажать относительные паттерны внимания, превращая их в более абсолютные. #### Значимость Результаты имеют значительное значение для понимания роли касуальной маски в трансформерах. Это означает, что не только эксплицитные позиционные кодировки, но и непараметрические компоненты, такие как касуальная маска, могут сильно повлиять на поведение моделей. Эти находки могут быть применены в различных областях, где позиционная информация играет ключевую роль, такие как текстовый пониманий, генерация текста и другие задачи, использующие последовательности. #### Выводы Основной вывод стать

Abstract

While explicit positional encodings such as RoPE are a primary source of positional information in Transformer decoders, the causal mask also provides positional information. In this work, we prove that the causal mask can induce position-dependent patterns in attention scores, even without parameters or causal dependency in the input. Our theoretical analysis indicates that the induced attention pattern tends to favor nearby query-key pairs, mirroring the behavior of common positional encodings. Empirical analysis confirms that trained models exhibit the same behavior, with learned parameters further amplifying these patterns. Notably, we found that the interaction of causal mask and RoPE distorts RoPE's relative attention score patterns into non-relative ones. We consistently observed this effect in modern large language models, suggesting the importance of considering the causal mask as a source of positional information alongside explicit positional encodings.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Behind RoPE: How Does Causal Mask Encode Positional Information?

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Automated Data Enrichment using Confidence-Aware Fine-Grained Debate among Open-...

Exposing Pink Slime Journalism: Linguistic Signatures and Robust Detection Again...

A Preliminary Study on the Promises and Challenges of Native Top-$k$ Sparse Atte...

Computational Linguistics Meets Libyan Dialect: A Study on Dialect Identificatio...

Sarcasm Detection on Reddit Using Classical Machine Learning and Feature Enginee...

Навигация