Enhancing compact convolutional transformers with super attention

2508.18960v1 cs.CV, cs.LG 2025-08-28

Авторы:

Simpenzwe Honore Leandre, Natenaile Asmamaw Shiferaw, Dillip Rout

Резюме на русском

## Контекст Современные модели конвейерных трансформеров становятся все более сложными, что негативно сказывается на их производительности и эффективности. Для решения этих проблем в статье предлагается модель, которая использует новый подход к токенизации и сжатию данных. Эта модель применяется в задачах с фиксированной длиной контекста, где традиционные модели часто сталкиваются с проблемами эффективности и точности. В частности, в тесте CIFAR100 модель показала существенное улучшение точности валидации по сравнению с базовыми моделями. Этот результат достигнут благодаря инновационной архитектуре, которая упрощает обучение и улучшает производительность. ## Метод Модель состоит из нескольких ключевых компонентов. Первый, **Tokenizer**, преобразует входные данные в токены с помощью полносвязного слоя. Второй, **Super Attention**, представляет собой усовершенствованный механизм внимания, который снижает объем вычислительных операций и упрощает обучение. Третий, **Sequence Pooling**, используется для сжатия последовательностей токенов, что позволяет эффективно обрабатывать длинные последовательности. Наконец, используется **Convolutional Tokenizer** для дополнительного сжатия токенов. Эта связка всех элементов позволяет модели достичь высокой точности с меньшим потреблением ресурсов. ## Результаты На тесте CIFAR100 модель показала существенное улучшение производительности. Точность валидации на 1% и 5% валидации растёт от 36.50% до 46.29% и от 66.33% до 76.31% соответственно. Это более эффективно, чем модель с Scaled Dot Product Attention (SDPA), которая работает медленнее и требует большего объема памяти при коротких контекстах. Модель также демонстрирует высокую стабильность при обучении и не требует дополнительных методов, таких как позиционные эмбеддинги или традиционная гиперпараметрическая оптимизация. Эти результаты подтверждают эффективность и универсальность нового подхода. ## Значимость Модель может быть применена в различных областях, включая обработку естественного языка, анализ изображений и видео. Высокая эффективность и упрощенная архитектура делают её привлекательной для сетей с ограниченными ресурсами. Благодаря своей простоте и точности модель подходит для использования в мобильных приложениях, малопроизводительных устройствах и контекстах с высоким уровнем сжатия данных. Это открывает новые возможности для развития ИИ на устройствах с ограниченным мощностным ресурсом. ## Выводы Результаты этого исследования открывают новые пути для развития моделей сжатых конвейерных трансформеров. Модель, описанная в статье, демонстрирует

Abstract

In this paper, we propose a vision model that adopts token mixing, sequence-pooling, and convolutional tokenizers to achieve state-of-the-art performance and efficient inference in fixed context-length tasks. In the CIFAR100 benchmark, our model significantly improves the baseline of the top 1% and top 5% validation accuracy from 36.50% to 46.29% and 66.33% to 76.31%, while being more efficient than the Scaled Dot Product Attention (SDPA) transformers when the context length is less than the embedding dimension and only 60% the size. In addition, the architecture demonstrates high training stability and does not rely on techniques such as data augmentation like mixup, positional embeddings, or learning rate scheduling. We make our code available on Github.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Enhancing compact convolutional transformers with super attention

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Plug-and-Play Image Restoration with Flow Matching: A Continuous Viewpoint

Inference-time Stochastic Refinement of GRU-Normalizing Flow for Real-time Video...

Rethinking the Use of Vision Transformers for AI-Generated Image Detection

Aligned but Stereotypical? The Hidden Influence of System Prompts on Social Bias...

HTR-ConvText: Leveraging Convolution and Textual Information for Handwritten Tex...

Навигация