Hierarchical Self-Attention: Generalizing Neural Attention Mechanics to Multi-Scale Problems

2509.15448v1 cs.LG, cs.AI, cs.NE, stat.ML 2025-09-23
Авторы:

Saeed Amizadeh, Sara Abdali, Yinheng Li, Kazuhito Koishida

Резюме на русском

## Контекст В последние годы трансформеры и их механизм внимания стали одной из фундаментальных составляющих искусственного интеллекта. Оригинально разработанные для обработки текстовых данных, они быстро нашли применение в обработке изображений, видео, графов и других типов сигналов с разными геометриями. Однако широкое применение трансформеров к задачам, где данные представлены на разных уровнях детализации или из разных многомодальных источников, сталкивается с рядом проблем. Наиболее сложным показалось включение в модели естественного иерархического порядка данных и многомодальности. Эти проблемы часто решаются с помощью ад-хук оптимизаций, которые не всегда могут быть легко применены к похожим задачам. В данной работе мы принимаем другой подход, основываясь на формализации и математической модели, чтобы сделать вклад в общее понимание и решения таких проблем. ## Метод Мы предлагаем универсальный математический фреймворк для представления данных с множественными модальностями и уровнями детализации. Этот фреймворк основывается на принципе минимизации энтропии, что позволяет выразить внимание в трансформере с точки зрения оптимального распределения ресурсов. Мы также предложили эффективный алгоритм на основе динамического программирования для вычисления такого внимания. Далее мы интегрируем наш метод с трансформерами, обеспечивая способность обучать модели с многоуровневым вниманием с нуля, а также модифицировать уже готовые модели, добавляя в них иерархические свойства. ## Результаты Мы провели эксперименты на различных задачах, включая обработку текста, изображений и видео. Наши результаты показали, что иерархическое внимание не только демонстрирует высокую точность, но и эффективно работает при работе с многомодальными и многоуровневыми данными. Мы также проверили, как наш метод может быть использован для модификации уже обученных трансформеров, добавляя им новые индикутивные предрассудки, а также улучшая их работу на новых задачах. ## Значимость Наш подход может быть применен в различных областях, таких как обработка естественного языка, анализ изображений, видео и других сигналов. Он обеспечивает более точную обработку многомодальных данных и улучшает производительность трансформеров в сложных задачах. Мы увидели, что наш метод может стать инструментом для улучшения трансформеров в многомодальных и многоуровневых задачах, что может привести к более эффективным решениям в сферах, где данные имеют различные геометрии и сложности. ## Выводы Мы представили новую математическую модель для представления многомо

Abstract

Transformers and their attention mechanism have been revolutionary in the field of Machine Learning. While originally proposed for the language data, they quickly found their way to the image, video, graph, etc. data modalities with various signal geometries. Despite this versatility, generalizing the attention mechanism to scenarios where data is presented at different scales from potentially different modalities is not straightforward. The attempts to incorporate hierarchy and multi-modality within transformers are largely based on ad hoc heuristics, which are not seamlessly generalizable to similar problems with potentially different structures. To address this problem, in this paper, we take a fundamentally different approach: we first propose a mathematical construct to represent multi-modal, multi-scale data. We then mathematically derive the neural attention mechanics for the proposed construct from the first principle of entropy minimization. We show that the derived formulation is optimal in the sense of being the closest to the standard Softmax attention while incorporating the inductive biases originating from the hierarchical/geometric information of the problem. We further propose an efficient algorithm based on dynamic programming to compute our derived attention mechanism. By incorporating it within transformers, we show that the proposed hierarchical attention mechanism not only can be employed to train transformer models in hierarchical/multi-modal settings from scratch, but it can also be used to inject hierarchical information into classical, pre-trained transformer models post training, resulting in more efficient models in zero-shot manner.

Ссылки и действия

Связанные статьи

Gradient Interference-Aware Graph Coloring for Multitask Learning

## Контекст В многозадачном обучении (multi-task learning) существуют ситуации, когда цели разных задач противоречат дру...

2025-09-24