Adaptive Token Merging for Efficient Transformer Semantic Communication at the Edge

2509.09955v1 cs.LG, cs.AI, cs.CV, eess.IV 2025-09-16

Авторы:

Omar Erak, Omar Alhussein, Hatem Abou-Zeid, Mehdi Bennis, Sami Muhaidat

Резюме на русском

## Контекст Область семантической связи, основанной на трансформерах, является ключевой для современных систем интеллектуального анализа данных и обработки текста. Однако высокая вычислительная сложность и требования к связи препятствуют развертыванию трансформеров на ресурс-ограниченных устройствах, таких как edge-устройства. Эта проблема становится особенно актуальной в ситуациях, где необходимо быстрое взаимодействие и минимальное потребление ресурсов. Необходимость эффективной реализации трансформеров в таких условиях вдохновила разработку адаптивной методики по изменению токенов, нацеленной на эффективное сжатие представлений трансформера во время выполнения. ## Метод Метод предлагаемого фреймворка основывается на адаптивной методике по изменению токенов, которая включает в себя выделение и избавление от семантически повторяющихся токенов в процессе выполнения. Алгоритм построен на многоцелевой оптимизации, где каждое изменение токена проверяется по нескольким критериям: точности решения задачи, затратам вычислительных ресурсов и требованиям к связи. Используется техника Bayesian optimization для поиска оптимальных точек компромисса между этими факторами. Это позволяет адаптировать поведение трансформера к конкретным условиям задачи и условиям связи в реальном времени, не требуя переноса или переучивания модели. ## Результаты Эксперименты проводились на датасетах ImageNet для классификации изображений и Visual Question Answering (VQA) для обработки визуальных запросов. Адаптивная токенная мерж-методика позволила сократить число выполняемых операций с плавающей точкой (FLOPs) на 30% при сохранении точности классификации на уровне необработанного трансформера. Для VQA, алгоритм достиг точности, приближающейся к LLaVA, с потреблением менее трети вычислительных ресурсов и менее 10% ширины канала связи. Эти результаты демонстрируют высокую эффективность и универсальность подхода в условиях ограниченных ресурсов. ## Значимость Предложенный подход может быть применен в различных сценариях, где необходимы быстрые и эффективные вычисления на edge-устройствах, такие как распознавание речи, обработка видео, интеллектуальные системы для IoT. Он предоставляет преимущества в скорости работы, экономии ресурсов и повышении приватности данных, так как снижает вероятность успешных модельно-инверсионных атак. Это делает его привлекательным для разработчиков, которые стремятся к максимальной эффективности в задачах обработки семантических данных на крайних краях сети. ## Выводы Предложенный фреймворк адаптивной токен

Abstract

Large-scale transformers are central to modern semantic communication, yet their high computational and communication costs hinder deployment on resource-constrained edge devices. This paper introduces a training-free framework for adaptive token merging, a novel mechanism that compresses transformer representations at runtime by selectively merging semantically redundant tokens under per-layer similarity thresholds. Unlike prior fixed-ratio reduction, our approach couples merging directly to input redundancy, enabling data-dependent adaptation that balances efficiency and task relevance without retraining. We cast the discovery of merging strategies as a multi-objective optimization problem and leverage Bayesian optimization to obtain Pareto-optimal trade-offs between accuracy, inference cost, and communication cost. On ImageNet classification, we match the accuracy of the unmodified transformer with 30\% fewer floating-point operations per second and under 20\% of the original communication cost, while for visual question answering our method achieves performance competitive with the full LLaVA model at less than one-third of the compute and one-tenth of the bandwidth. Finally, we show that our adaptive merging is robust across varying channel conditions and provides inherent privacy benefits, substantially degrading the efficacy of model inversion attacks. Our framework provides a practical and versatile solution for deploying powerful transformer models in resource-limited edge intelligence scenarios.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Adaptive Token Merging for Efficient Transformer Semantic Communication at the Edge

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Time-Series at the Edge: Tiny Separable CNNs for Wearable Gait Detection and Opt...

Adaptive Pareto-Optimal Token Merging for Edge Transformer Models in Semantic Co...

Навигация