ENA: Efficient N-dimensional Attention

2508.11921v1 cs.LG, cs.AI, cs.CV 2025-08-19

Авторы:

Yibo Zhong

Резюме на русском

#### Контекст Современные модели глубокого обучения сталкиваются с вызовами при работе с данными высокого порядка (например, 1D-ND), такими как видео, звук или сложные структуры данных. Традиционные трансформеры, хотя очень эффективны для линейных последовательностей, неэффективны при работе с высокопорядковыми данными из-за высокой стоимости вычислений и памяти. Это приводит к необходимости разработки более эффективных архитектур, которые могут эффективно обрабатывать высокопорядковые данные. Этот рабочей группой предлагается ENA (Efficient N-dimensional Attention) — архитектура, которая комбинирует линейную рекуррентную сеть с высокопорядковым скольжением окнами (SWA) для моделирования высокопорядковых данных. Целью работы является изучение и эффективное решение проблем моделирования высокопорядковых последовательностей, которые требуют высокой производительности и малого потребления ресурсов. #### Метод Работа основывается на двух ключевых элементах: **сканировании** и **аттенции-гибридных моделях**. Сканирование — это подход, который использует линейные модели для последовательного сканирования данных по осям. Однако, как показано в теории и практике, этот подход оказался ограниченным в своих возможностях. Вместо этого, работа рассматривает аттенцион-гибридные модели, в которых линейная рекуррентная сеть комбинируется с модифицированной аттенцией для моделирования высокопорядковых данных. Особое внимание уделено **типам аттенции**, в том числе **tiled high-order sliding window attention (SWA)**, которая представляет собой модификацию скольжения окнами для высокопорядковых данных. Архитектура ENA представляет собой синергетическую комбинацию этих двух компонентов, которая обеспечивает эффективность в теории и в практике. #### Результаты Для оценки эффективности ENA проведены несколько экспериментов на различных наборах данных 1D-ND. Использовались различные модели для сравнения, включая трансформеры и другие аттенцион-гибридные модели. Результаты показали, что ENA превосходит трансформеры и другие архитектуры по точности и эффективности вычислений. Ключевым результатом является то, что **tiled high-order sliding window attention (SWA)** оказалась очень эффективной как в теории, так и в практике. Эта модель демонстрирует превосходную скорость обучения и работы на высокопорядковых последовательностях, что делает её привлекательной для задач, требующих моделирования длинных последовательностей. #### Значимость ENA предлагает расширение линейных рекуррентных моделей за счёт сочетания линейного взвешивания и высокопорядкового скольжения окнами. Эта модель может быть применена в различных областях, таких как

Abstract

Efficient modeling of long sequences of high-order data requires a more efficient architecture than Transformer. In this paper, we investigate two key aspects of extending linear recurrent models, especially those originally designed for language modeling, to high-order data (1D to ND): scanning strategies and attention-hybrid architectures. Empirical results suggest that scanning provides limited benefits, while attention-hybrid models yield promising results. Focusing on the latter, we further evaluate types of attention and find that tiled high-order sliding window attention (SWA) is efficient in both theory and practice. We term the resulting hybrid architecture of linear recurrence and high-order SWA as Efficient N-dimensional Attention (ENA). We then conduct several experiments to demonstrate its effectiveness. The intuition behind ENA is that linear recurrence compresses global information into a state, while SWA complements it by enforcing strict local modeling. Together, they form a simple framework that offers a promising and practical solution for ultra-long high-order data modeling.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

ENA: Efficient N-dimensional Attention

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

TV2TV: A Unified Framework for Interleaved Language and Video Generation

The Universal Weight Subspace Hypothesis

STeP-Diff: Spatio-Temporal Physics-Informed Diffusion Models for Mobile Fine-Gra...

Open-Set Domain Adaptation Under Background Distribution Shift: Challenges and A...

First On-Orbit Demonstration of a Geospatial Foundation Model

Навигация