Adaptive Pareto-Optimal Token Merging for Edge Transformer Models in Semantic Communication

2509.09168v1 cs.LG, cs.AI, cs.CV, eess.IV 2025-09-13
Авторы:

Omar Erak, Omar Alhussein, Hatem Abou-Zeid, Mehdi Bennis

Резюме на русском

## Контекст Semantic communication systems, основанные на transformers, являются важной компонентой 6G-сетей, обеспечивая богатые семантические представления для надежного распознавания в условиях шумных каналов. Однако высокая сложность и требования к вычислительным ресурсам этих моделей препятствуют их эффективному использованию в ресурсами ограниченных устройствах. В этом контексте возникает необходимость разработки методов, уменьшающих нагрузку на вычисления, одновременно сохраняя высокую точность и эффективность. ## Метод Работа предлагает фреймворк, основанный на адаптивном маржинализации токенов, для адаптивного сокращения размера токенов в моделях vision transformers. Метод формулируется как многоцелевое оптимизационное задание, которое стремится минимизировать объем передаваемых данных и вычислительные затраты, поддерживая при этом высокую точность. Для построения оптимальных конфигураций используется Gaussian Process-Based Bayesian Optimization, которая позволяет определить парето-оптимальные точки. Такая подход позволяет адаптировать модель в реальном времени в зависимости от условий канала и потребностей приложений. ## Результаты Проведены эксперименты, использующие различные сценарии семантической связи, включая различные уровни шума в канале (SNR). На основе наборов данных, таких как CIFAR-10 и ImageNet, показано, что предлагаемый подход существенно уменьшает число floating-point operations (FLOPs), не ухудшая точность. В сравнении с другими методами, такими как Dynamic Token Pruning и Dynamic Quantization, предлагаемый фреймворк демонстрирует выигрыш в эффективности, сохраняя высокую точность в различных условиях сети. ## Значимость Предлагаемый подход имеет широкие применения в семантической связи, включая 5G/6G-сети, ИИ на основе трансформеров и машинное обучение на крайних устройствах. Он обеспечивает значительную экономию вычислительных ресурсов без существенного потери точности. Его гибкость в процессе между скоростью и точностью делает его идеальным выбором для реализации в реальных системах, где необходимо быстро реагировать на изменения условий сети. ## Выводы Работа представляет собой новую точку в развитии адаптивных методов для semantic communication systems. Она демонстрирует, что адаптивная токенная маржинализация может эффективно компромиссом регулировать вычислительные затраты и точность в реальном времени. Будущие исследования будут сфокусированы на расширении этого подхода для других типов моделей и его интеграции с другими методами оптимизации в семантических сетях.

Abstract

Large-scale transformer models have emerged as a powerful tool for semantic communication systems, enabling edge devices to extract rich representations for robust inference across noisy wireless channels. However, their substantial computational demands remain a major barrier to practical deployment in resource-constrained 6G networks. In this paper, we present a training-free framework for adaptive token merging in pretrained vision transformers to jointly reduce inference time and transmission resource usage. We formulate the selection of per-layer merging proportions as a multi-objective optimization problem to balance accuracy and computational cost. We employ Gaussian process-based Bayesian optimization to construct a Pareto frontier of optimal configurations, enabling flexible runtime adaptation to dynamic application requirements and channel conditions. Extensive experiments demonstrate that our method consistently outperforms other baselines and achieves significant reductions in floating-point operations while maintaining competitive accuracy across a wide range of signal-to-noise ratio (SNR) conditions. Additional results highlight the effectiveness of adaptive policies that adjust merging aggressiveness in response to channel quality, providing a practical mechanism to trade off latency and semantic fidelity on demand. These findings establish a scalable and efficient approach for deploying transformer-based semantic communication in future edge intelligence systems.

Ссылки и действия

Связанные статьи

Adaptive Token Merging for Efficient Transformer Semantic Communication at the E...

## Контекст Область семантической связи, основанной на трансформерах, является ключевой для современных систем интеллект...

2025-09-16