Attention Layers Add Into Low-Dimensional Residual Subspaces

2508.16929v1 cs.LG, cs.CL 2025-08-27
Авторы:

Junxuan Wang, Xuyang Ge, Wentao Shu, Zhengfu He, Xipeng Qiu

Резюме на русском

## Контекст Transformers обладают выдающимися способностями в обработке текстов благодаря своёму эффективному использованию пространств высоких размерностей. Однако в статье предлагается точка зрения, что attention outputs в многих случаях живут в значительно низкоразмерных подпространствах. Это не только развеивает общепринятые убеждения, но и вызывает вопросы о почему transformer модели так эффективны в своём пространстве операций. Это также подчёркивает важность оптимизации и моделирования в ограниченном пространстве, который может быть упрощён специальными методами для повышения эффективности. ## Метод Авторы предлагают метод, основывающийся на том, что attention outputs живут в низкоразмерном пространстве. Метод заключается в использовании сабспейса-ограниченного обучения, где новые фичи инициализируются в низкоразмерных пространствах, где активации transformer моделей фактически живут. Этот подход решает проблему "dead features" в sparse dictionary learning, когда неактивные фичи не вносят никакого вклада в обучение. Алгоритм использует методы, аналогичные sparse autoencoders (SAEs), но с учётом низкоразмерной структуры attention. Он также может расширяться на другие методы спарсингового обучения. ## Результаты В экспериментах показано, что при использовании этого метода в sparse autoencoders с 1 миллионом фичей, количество "dead features" уменьшилось с 87% до менее 1%. Это показывает, что алгоритм эффективно использует низкоразмерные пространства, уменьшая субдуктивные неэффективности в обучении. Эксперименты проводились на различных моделях и данных, подтверждая значительное улучшение по сравнению с безучётным использованием пространства. ## Значимость Результаты этой работы имеют широкое применение в машинном обучении. В частности, это помогает улучшить sparse dictionary learning, который широко используется в различных задачах, таких как feature selection и dimensionality reduction. Метод также может быть применён в transformer-based моделях для сокращения размерности и повышения эффективности. Это даёт новые возможности в сжатии моделей и уменьшении ресурсоемкости. ## Выводы Предложенный метод демонстрирует, что attention outputs не всегда живут в высокоразмерных пространствах, как считалось ранее. Это подкрепляет нужду исследований в области низкоразмерного моделирования и оптимизации transformer моделей. Будущие исследования могут быть направлены на поиск других низкоразмерных структур в transformer моделях и расширение этого подхода на другие задачи, такие как обучение с подкреплением.

Abstract

While transformer models are widely believed to operate in high-dimensional hidden spaces, we show that attention outputs are confined to a surprisingly low-dimensional subspace, where about 60\% of the directions account for 99\% of the variance--a phenomenon that is induced by the attention output projection matrix and consistently observed across diverse model families and datasets. Critically, we find this low-rank structure as a fundamental cause of the prevalent dead feature problem in sparse dictionary learning, where it creates a mismatch between randomly initialized features and the intrinsic geometry of the activation space. Building on this insight, we propose a subspace-constrained training method for sparse autoencoders (SAEs), initializing feature directions into the active subspace of activations. Our approach reduces dead features from 87\% to below 1\% in Attention Output SAEs with 1M features, and can further extend to other sparse dictionary learning methods. Our findings provide both new insights into the geometry of attention and practical tools for improving sparse dictionary learning in large language models.

Ссылки и действия