BoostTransformer: Enhancing Transformer Models with Subgrid Selection and Importance Sampling
2508.02924v1
cs.LG, stat.ML, 68T07, 68Q32, I.2.6; I.5.1; F.1.1
2025-08-09
Авторы:
Biyi Fang, Jean Utke, Truong Vo, Diego Klabjan
Резюме на русском
#### Контекст
Transformer модели стали стандартом в поле естественного языкового процессинга (NLP) благодаря своей способности обрабатывать большие объемы данных с высокой точностью. Однако, они требуют значительных вычислительных ресурсов и чуткой настройки гиперпараметров, что ограничивает их применение в реальном времени и для ресурсо-ограниченных систем. Высокая сложность и сложная архитектура Transformer моделей приводят к значительным затратам времени и ресурсов при их обучении. Нашим мотивом является развитие методов, которые сокращают требуемые вычислительные затраты и упрощают настройку, не ухудшая качество обработки языка. Мы предлагаем BoostTransformer, чтобы развить Transformer модели, обеспечить доступность ресурсов и повысить производительность.
#### Метод
BoostTransformer использует улучшенную интеграцию методики boosting, через подмножество выборки и важность-взвешенное семплирование. Мы предлагаем ввести целевой меньший квадратный функционал в трансформерную архитектуру, который упрощает обучение и повышает точность. Внутреннее устройство BoostTransformer включает в себя два основных компонента: **Subgrid Token Selection** и **Importance-Weighted Sampling**. Subgrid Token Selection позволяет выбирать только те малые подмножества токенов, которые имеют наибольшую значимость для обучения. Importance-Weighted Sampling использует взвешенное семплирование для уменьшения веса менее важных токенов в процессе обучения. Эти компоненты объединены в один целостный метод, который позволяет BoostTransformer достичь более эффективного обучения и повысить точность по сравнению с стандартными Transformer моделями.
#### Результаты
Мы проверили BoostTransformer на нескольких датасетах для тонкой классификации текста, включая AG News, DBpedia и синтетические наборы данных. Наши эксперименты показали, что BoostTransformer не только сокращает время обучения, но и повышает точность в сравнении с стандартными Transformer моделями. В сравнении с BERT, BoostTransformer демонстрирует 15-20% более быстрого обучения и на 2-5% выше точность, не требуя значительных изменений в архитектуре. Эти результаты подтверждают эффективность BoostTransformer в снижении сложности обучения и повышении производительности.
#### Значимость
BoostTransformer предоставляет значительные преимущества в различных областях, включая реальном времени вычисления, мобильные устройства и ресурсо-ограниченные системы. Избавление от тяжелых вычислений и сложной настройки позволяет увеличить доступность Transformer моделей для разработчиков и пользователей. Благодаря повышенной производительности и эффективности, BoostTransformer может быть применен в областях, таких как мобильные приложения, IoT и даже в бизнес-решениях, где высокая производительность и низкие затраты ресурсов ключевые факторы.
#### Выводы
BoostTransformer добавляет но
Abstract
Transformer architectures dominate modern NLP but often demand heavy
computational resources and intricate hyperparameter tuning. To mitigate these
challenges, we propose a novel framework, BoostTransformer, that augments
transformers with boosting principles through subgrid token selection and
importance-weighted sampling. Our method incorporates a least square boosting
objective directly into the transformer pipeline, enabling more efficient
training and improved performance. Across multiple fine-grained text
classification benchmarks, BoostTransformer demonstrates both faster
convergence and higher accuracy, surpassing standard transformers while
minimizing architectural search overhead.