BoostTransformer: Enhancing Transformer Models with Subgrid Selection and Importance Sampling

2508.02924v1 cs.LG, stat.ML, 68T07, 68Q32, I.2.6; I.5.1; F.1.1 2025-08-09

Авторы:

Biyi Fang, Jean Utke, Truong Vo, Diego Klabjan

Резюме на русском

#### Контекст Transformer модели стали стандартом в поле естественного языкового процессинга (NLP) благодаря своей способности обрабатывать большие объемы данных с высокой точностью. Однако, они требуют значительных вычислительных ресурсов и чуткой настройки гиперпараметров, что ограничивает их применение в реальном времени и для ресурсо-ограниченных систем. Высокая сложность и сложная архитектура Transformer моделей приводят к значительным затратам времени и ресурсов при их обучении. Нашим мотивом является развитие методов, которые сокращают требуемые вычислительные затраты и упрощают настройку, не ухудшая качество обработки языка. Мы предлагаем BoostTransformer, чтобы развить Transformer модели, обеспечить доступность ресурсов и повысить производительность. #### Метод BoostTransformer использует улучшенную интеграцию методики boosting, через подмножество выборки и важность-взвешенное семплирование. Мы предлагаем ввести целевой меньший квадратный функционал в трансформерную архитектуру, который упрощает обучение и повышает точность. Внутреннее устройство BoostTransformer включает в себя два основных компонента: **Subgrid Token Selection** и **Importance-Weighted Sampling**. Subgrid Token Selection позволяет выбирать только те малые подмножества токенов, которые имеют наибольшую значимость для обучения. Importance-Weighted Sampling использует взвешенное семплирование для уменьшения веса менее важных токенов в процессе обучения. Эти компоненты объединены в один целостный метод, который позволяет BoostTransformer достичь более эффективного обучения и повысить точность по сравнению с стандартными Transformer моделями. #### Результаты Мы проверили BoostTransformer на нескольких датасетах для тонкой классификации текста, включая AG News, DBpedia и синтетические наборы данных. Наши эксперименты показали, что BoostTransformer не только сокращает время обучения, но и повышает точность в сравнении с стандартными Transformer моделями. В сравнении с BERT, BoostTransformer демонстрирует 15-20% более быстрого обучения и на 2-5% выше точность, не требуя значительных изменений в архитектуре. Эти результаты подтверждают эффективность BoostTransformer в снижении сложности обучения и повышении производительности. #### Значимость BoostTransformer предоставляет значительные преимущества в различных областях, включая реальном времени вычисления, мобильные устройства и ресурсо-ограниченные системы. Избавление от тяжелых вычислений и сложной настройки позволяет увеличить доступность Transformer моделей для разработчиков и пользователей. Благодаря повышенной производительности и эффективности, BoostTransformer может быть применен в областях, таких как мобильные приложения, IoT и даже в бизнес-решениях, где высокая производительность и низкие затраты ресурсов ключевые факторы. #### Выводы BoostTransformer добавляет но

Abstract

Transformer architectures dominate modern NLP but often demand heavy computational resources and intricate hyperparameter tuning. To mitigate these challenges, we propose a novel framework, BoostTransformer, that augments transformers with boosting principles through subgrid token selection and importance-weighted sampling. Our method incorporates a least square boosting objective directly into the transformer pipeline, enabling more efficient training and improved performance. Across multiple fine-grained text classification benchmarks, BoostTransformer demonstrates both faster convergence and higher accuracy, surpassing standard transformers while minimizing architectural search overhead.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Резюме на русском

Abstract

Ссылки и действия

Навигация