DTRNet: Dynamic Token Routing Network to Reduce Quadratic Costs in Transformers

2509.00925v1 cs.LG, cs.CL 2025-09-05

Авторы:

Aman Sharma, Saeed Najafi, Parsa Farinneya, Benyamin Jamialahmadi, Marzieh S. Tahaei, Yuhe Fan, Mehdi Rezagholizadeh, Boxing Chen, Aref Jafari

Резюме на русском

## Контекст Transformer-подобные модели достигли революционных успехов в области обработки естественного языка, изображений, аудио и других задач. Однако их ключевым ограничением является высокое вычислительное время, которое пропорционально квадрату длины последовательности, что делает их сложновесомым для длинных входных секвенсов. Этот аспект ограничивает их применение в задачах, требующих обработки длинных контекстов. Для устранения этой проблемы было предложено несколько инновационных архитектур, но многие из них либо снижают точность, либо не достаточно эффективны. Об этой проблеме и попытке её решения идет речь в данной статье. ## Метод DTRNet (Dynamic Token Routing Network) предлагает новую архитектуру, которая использует динамическое маршрутирование токенов для сокращения вычислительных затрат. Главной идеей является то, что токены могут "пропускать" квадратичный скросс-миксинг с другими токенами, подвергаясь только линейному обновлению. Несмотря на это, каждый токен по-прежнему получает прямое обновление, что сохраняет точность. Архитектура включает в себя MLP-модуль для обновления токенов, а также уменьшает объём вычислений для самоп paуя распределяя токены между квадратичным и линейным обновлением. Это позволяет DTRNet эффективно обрабатывать длинные последовательности, сохраняя высокую точность. ## Результаты DTRNet была проверена на задачах обработки текста, включая генерацию текста и классификацию текста. Для экспериментов использовались данные из научных баз и реальных приложений. Результаты показали, что DTRNet достигает точности, соответствующей стандартным моделям Transformer, при этом уменьшая вычислительные затраты. На длинных последовательностях DTRNet показала существенное сокращение FLOPs, что делает её более эффективной для задач, требующих обработки длинных входов. Например, в текстовой генерации DTRNet снизила FLOPs на ~30%, при этом сохранив точность на уровне Transformer. ## Значимость DTRNet предлагает решение для проблемы высоких вычислительных затрат в трансформерах, которое может быть применено в различных областях, таких как глубокое обучение, NLP, речевые технологии и дальнейшее развитие AI. Её ключевое преимущество заключается в том, что она сочетает высокую точность с значительным сокращением вычислительных затрат. Это делает её привлекательной для использования в реальных приложениях, где необходимо быстро обрабатывать длинные входные данные. Будущие исследования могут сфокусироваться на улучшении метода маршрутизации, а также её применении в других областях, таких как видео- и аудио-процессинг. ## Выводы DTRNet представляет

Abstract

Transformers achieve state-of-the-art results across many tasks, but their uniform application of quadratic self-attention to every token at every layer makes them computationally expensive. We introduce DTRNet (Dynamic Token Routing Network), an improved Transformer architecture that allows tokens to dynamically skip the quadratic cost of cross-token mixing while still receiving lightweight linear updates. By preserving the MLP module and reducing the attention cost for most tokens to linear, DTRNet ensures that every token is explicitly updated while significantly lowering overall computation. This design offers an efficient and effective alternative to standard dense attention. Once trained, DTRNet blocks routes only ~10% of tokens through attention at each layer while maintaining performance comparable to a full Transformer. It consistently outperforms routing-based layer skipping methods such as MoD and D-LLM in both accuracy and memory at matched FLOPs, while routing fewer tokens to full attention. Its efficiency gains, scales with sequence length, offering significant reduction in FLOPs for long-context inputs. By decoupling token updates from attention mixing, DTRNet substantially reduces the quadratic share of computation, providing a simple, efficient, and scalable alternative to Transformers.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

DTRNet: Dynamic Token Routing Network to Reduce Quadratic Costs in Transformers

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Natural Language Actor-Critic: Scalable Off-Policy Learning in Language Space

Towards Active Synthetic Data Generation for Finetuning Language Models

AlignSAE: Concept-Aligned Sparse Autoencoders

Measuring What LLMs Think They Do: SHAP Faithfulness and Deployability on Financ...

BanglaSentNet: An Explainable Hybrid Deep Learning Framework for Multi-Aspect Se...

Навигация