DTRNet: Dynamic Token Routing Network to Reduce Quadratic Costs in Transformers
2509.00925v1
cs.LG, cs.CL
2025-09-05
Авторы:
Aman Sharma, Saeed Najafi, Parsa Farinneya, Benyamin Jamialahmadi, Marzieh S. Tahaei, Yuhe Fan, Mehdi Rezagholizadeh, Boxing Chen, Aref Jafari
Резюме на русском
## Контекст
Transformer-подобные модели достигли революционных успехов в области обработки естественного языка, изображений, аудио и других задач. Однако их ключевым ограничением является высокое вычислительное время, которое пропорционально квадрату длины последовательности, что делает их сложновесомым для длинных входных секвенсов. Этот аспект ограничивает их применение в задачах, требующих обработки длинных контекстов. Для устранения этой проблемы было предложено несколько инновационных архитектур, но многие из них либо снижают точность, либо не достаточно эффективны. Об этой проблеме и попытке её решения идет речь в данной статье.
## Метод
DTRNet (Dynamic Token Routing Network) предлагает новую архитектуру, которая использует динамическое маршрутирование токенов для сокращения вычислительных затрат. Главной идеей является то, что токены могут "пропускать" квадратичный скросс-миксинг с другими токенами, подвергаясь только линейному обновлению. Несмотря на это, каждый токен по-прежнему получает прямое обновление, что сохраняет точность. Архитектура включает в себя MLP-модуль для обновления токенов, а также уменьшает объём вычислений для самоп paуя распределяя токены между квадратичным и линейным обновлением. Это позволяет DTRNet эффективно обрабатывать длинные последовательности, сохраняя высокую точность.
## Результаты
DTRNet была проверена на задачах обработки текста, включая генерацию текста и классификацию текста. Для экспериментов использовались данные из научных баз и реальных приложений. Результаты показали, что DTRNet достигает точности, соответствующей стандартным моделям Transformer, при этом уменьшая вычислительные затраты. На длинных последовательностях DTRNet показала существенное сокращение FLOPs, что делает её более эффективной для задач, требующих обработки длинных входов. Например, в текстовой генерации DTRNet снизила FLOPs на ~30%, при этом сохранив точность на уровне Transformer.
## Значимость
DTRNet предлагает решение для проблемы высоких вычислительных затрат в трансформерах, которое может быть применено в различных областях, таких как глубокое обучение, NLP, речевые технологии и дальнейшее развитие AI. Её ключевое преимущество заключается в том, что она сочетает высокую точность с значительным сокращением вычислительных затрат. Это делает её привлекательной для использования в реальных приложениях, где необходимо быстро обрабатывать длинные входные данные. Будущие исследования могут сфокусироваться на улучшении метода маршрутизации, а также её применении в других областях, таких как видео- и аудио-процессинг.
## Выводы
DTRNet представляет
Abstract
Transformers achieve state-of-the-art results across many tasks, but their
uniform application of quadratic self-attention to every token at every layer
makes them computationally expensive. We introduce DTRNet (Dynamic Token
Routing Network), an improved Transformer architecture that allows tokens to
dynamically skip the quadratic cost of cross-token mixing while still receiving
lightweight linear updates. By preserving the MLP module and reducing the
attention cost for most tokens to linear, DTRNet ensures that every token is
explicitly updated while significantly lowering overall computation. This
design offers an efficient and effective alternative to standard dense
attention. Once trained, DTRNet blocks routes only ~10% of tokens through
attention at each layer while maintaining performance comparable to a full
Transformer. It consistently outperforms routing-based layer skipping methods
such as MoD and D-LLM in both accuracy and memory at matched FLOPs, while
routing fewer tokens to full attention. Its efficiency gains, scales with
sequence length, offering significant reduction in FLOPs for long-context
inputs. By decoupling token updates from attention mixing, DTRNet substantially
reduces the quadratic share of computation, providing a simple, efficient, and
scalable alternative to Transformers.
Ссылки и действия
Дополнительные ресурсы: