Enhancing compact convolutional transformers with super attention
2508.18960v1
cs.CV, cs.LG
2025-08-28
Авторы:
Simpenzwe Honore Leandre, Natenaile Asmamaw Shiferaw, Dillip Rout
Резюме на русском
## Контекст
Современные модели конвейерных трансформеров становятся все более сложными, что негативно сказывается на их производительности и эффективности. Для решения этих проблем в статье предлагается модель, которая использует новый подход к токенизации и сжатию данных. Эта модель применяется в задачах с фиксированной длиной контекста, где традиционные модели часто сталкиваются с проблемами эффективности и точности. В частности, в тесте CIFAR100 модель показала существенное улучшение точности валидации по сравнению с базовыми моделями. Этот результат достигнут благодаря инновационной архитектуре, которая упрощает обучение и улучшает производительность.
## Метод
Модель состоит из нескольких ключевых компонентов. Первый, **Tokenizer**, преобразует входные данные в токены с помощью полносвязного слоя. Второй, **Super Attention**, представляет собой усовершенствованный механизм внимания, который снижает объем вычислительных операций и упрощает обучение. Третий, **Sequence Pooling**, используется для сжатия последовательностей токенов, что позволяет эффективно обрабатывать длинные последовательности. Наконец, используется **Convolutional Tokenizer** для дополнительного сжатия токенов. Эта связка всех элементов позволяет модели достичь высокой точности с меньшим потреблением ресурсов.
## Результаты
На тесте CIFAR100 модель показала существенное улучшение производительности. Точность валидации на 1% и 5% валидации растёт от 36.50% до 46.29% и от 66.33% до 76.31% соответственно. Это более эффективно, чем модель с Scaled Dot Product Attention (SDPA), которая работает медленнее и требует большего объема памяти при коротких контекстах. Модель также демонстрирует высокую стабильность при обучении и не требует дополнительных методов, таких как позиционные эмбеддинги или традиционная гиперпараметрическая оптимизация. Эти результаты подтверждают эффективность и универсальность нового подхода.
## Значимость
Модель может быть применена в различных областях, включая обработку естественного языка, анализ изображений и видео. Высокая эффективность и упрощенная архитектура делают её привлекательной для сетей с ограниченными ресурсами. Благодаря своей простоте и точности модель подходит для использования в мобильных приложениях, малопроизводительных устройствах и контекстах с высоким уровнем сжатия данных. Это открывает новые возможности для развития ИИ на устройствах с ограниченным мощностным ресурсом.
## Выводы
Результаты этого исследования открывают новые пути для развития моделей сжатых конвейерных трансформеров. Модель, описанная в статье, демонстрирует
Abstract
In this paper, we propose a vision model that adopts token mixing,
sequence-pooling, and convolutional tokenizers to achieve state-of-the-art
performance and efficient inference in fixed context-length tasks. In the
CIFAR100 benchmark, our model significantly improves the baseline of the top 1%
and top 5% validation accuracy from 36.50% to 46.29% and 66.33% to 76.31%,
while being more efficient than the Scaled Dot Product Attention (SDPA)
transformers when the context length is less than the embedding dimension and
only 60% the size. In addition, the architecture demonstrates high training
stability and does not rely on techniques such as data augmentation like mixup,
positional embeddings, or learning rate scheduling. We make our code available
on Github.
Ссылки и действия
Дополнительные ресурсы: