ENA: Efficient N-dimensional Attention
2508.11921v1
cs.LG, cs.AI, cs.CV
2025-08-19
Авторы:
Yibo Zhong
Резюме на русском
#### Контекст
Современные модели глубокого обучения сталкиваются с вызовами при работе с данными высокого порядка (например, 1D-ND), такими как видео, звук или сложные структуры данных. Традиционные трансформеры, хотя очень эффективны для линейных последовательностей, неэффективны при работе с высокопорядковыми данными из-за высокой стоимости вычислений и памяти. Это приводит к необходимости разработки более эффективных архитектур, которые могут эффективно обрабатывать высокопорядковые данные. Этот рабочей группой предлагается ENA (Efficient N-dimensional Attention) — архитектура, которая комбинирует линейную рекуррентную сеть с высокопорядковым скольжением окнами (SWA) для моделирования высокопорядковых данных. Целью работы является изучение и эффективное решение проблем моделирования высокопорядковых последовательностей, которые требуют высокой производительности и малого потребления ресурсов.
#### Метод
Работа основывается на двух ключевых элементах: **сканировании** и **аттенции-гибридных моделях**. Сканирование — это подход, который использует линейные модели для последовательного сканирования данных по осям. Однако, как показано в теории и практике, этот подход оказался ограниченным в своих возможностях. Вместо этого, работа рассматривает аттенцион-гибридные модели, в которых линейная рекуррентная сеть комбинируется с модифицированной аттенцией для моделирования высокопорядковых данных. Особое внимание уделено **типам аттенции**, в том числе **tiled high-order sliding window attention (SWA)**, которая представляет собой модификацию скольжения окнами для высокопорядковых данных. Архитектура ENA представляет собой синергетическую комбинацию этих двух компонентов, которая обеспечивает эффективность в теории и в практике.
#### Результаты
Для оценки эффективности ENA проведены несколько экспериментов на различных наборах данных 1D-ND. Использовались различные модели для сравнения, включая трансформеры и другие аттенцион-гибридные модели. Результаты показали, что ENA превосходит трансформеры и другие архитектуры по точности и эффективности вычислений. Ключевым результатом является то, что **tiled high-order sliding window attention (SWA)** оказалась очень эффективной как в теории, так и в практике. Эта модель демонстрирует превосходную скорость обучения и работы на высокопорядковых последовательностях, что делает её привлекательной для задач, требующих моделирования длинных последовательностей.
#### Значимость
ENA предлагает расширение линейных рекуррентных моделей за счёт сочетания линейного взвешивания и высокопорядкового скольжения окнами. Эта модель может быть применена в различных областях, таких как
Abstract
Efficient modeling of long sequences of high-order data requires a more
efficient architecture than Transformer. In this paper, we investigate two key
aspects of extending linear recurrent models, especially those originally
designed for language modeling, to high-order data (1D to ND): scanning
strategies and attention-hybrid architectures. Empirical results suggest that
scanning provides limited benefits, while attention-hybrid models yield
promising results. Focusing on the latter, we further evaluate types of
attention and find that tiled high-order sliding window attention (SWA) is
efficient in both theory and practice. We term the resulting hybrid
architecture of linear recurrence and high-order SWA as Efficient N-dimensional
Attention (ENA). We then conduct several experiments to demonstrate its
effectiveness. The intuition behind ENA is that linear recurrence compresses
global information into a state, while SWA complements it by enforcing strict
local modeling. Together, they form a simple framework that offers a promising
and practical solution for ultra-long high-order data modeling.
Ссылки и действия
Дополнительные ресурсы: