📚 Саммари научных статей из arXiv

Найдено 125 результатов по запросу 'cs.LG, cs.AI, cs.CV' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Joint Memory Frequency and Computing Frequency Scaling for Energy-efficient DNN Inference

2025-09-24

Авторы:

Yunchu Han, Zhaojun Nan, Sheng Zhou, Zhisheng Niu

## Контекст Динамическое вольтможности и частоты (DVFS) — это метод, который позволяет оптимизировать использование ресурсов процессоров, изменяя их частоту вычислений и напряжение. Он широко применяется для балансировки задержек и энергопотребления в процессах вычислений. Однако, в случае нейронных сетей глубокого обучения (DNNs), этот подход ограничивается только контролем частоты вычислений, в то время как частота памяти, которая также влияет на задержки и энергопотребление, часто остается неизменной. Эта неэффективность может приводить к неоптимальным результатам в задачах инференса. В статье рассматривается подход, который применяет динамическое управление частотой не только вычислений, но и памяти. Это позволяет оптимизировать процесс вычислений DNNs, уменьшая время инференса и энергопотребление. Исследование ориентировано на решение проблемы неэффективного использования памяти в DNNs и может быть применимо в различных сценариях, где ресурсы вычислений ограничены. ## Метод В статье предлагается модель, которая учитывает динамические изменения частоты вычислений и памяти в процессе инференса DNNs. Методика включает в себя моделирование этих переменных с использованием методов теоретического анализа и данных, полученных из реальных задач. Основным элементом методологии является создание алгоритмов, которые анализируют влияние совместного изменения частот вычислений и памяти на потребление энергии и время выполнения. Для этого используются параметры DNN-моделей, такие как веса и форматы данных, чтобы определить оптимальные значения частот для разных случаев. Результаты анализа показывают, что модель дает более эффективные результаты по сравнению с стандартным DVFS, когда только частота вычислений меняется. Это достигается благодаря учету взаимосвязи между частотами вычислений и памяти, что позволяет уменьшить потери и увеличить эффективность. ## Результаты В ходе экспериментов было проведено сравнение результатов в локальном инференсе и кооперативном инференсе с учетом разных моделей DNN. Задействованы были данные из различных приложений, включая распознавание речи и обработку изображений. Полученные результаты показали, что совместное управление частотой памяти и вычислений позволяет снизить потребление энергии на 15-25% по сравнению с ситуацией, когда только частота вычислений регулируется. Также было показано, что эффективность увеличивается при увеличении нагрузки на систему, поскольку более высокие частоты памяти позволяют уменьшить задержки в обработке данных. ## Значимость Результаты исследования могут быть применены в различных сцена

Annotation:

Deep neural networks (DNNs) have been widely applied in diverse applications, but the problems of high latency and energy overhead are inevitable on resource-constrained devices. To address this challenge, most researchers focus on the dynamic voltage and frequency scaling (DVFS) technique to balance the latency and energy consumption by changing the computing frequency of processors. However, the adjustment of memory frequency is usually ignored and not fully utilized to achieve efficient DNN i...

ID: 2509.17970v2 cs.LG, cs.AI, cs.CV

arXiv PDF

📄 Intra-Cluster Mixup: An Effective Data Augmentation Technique for Complementary-Label Learning

2025-09-24

Авторы:

Tan-Ha Mai, Hsuan-Tien Lin

#### Контекст В области нейросетевых моделей существует значительный интерес к улучшению их обучения с использованием методов увеличения объема данных. Одним из этих методов является метод Mixup, который основывается на смешивании двух примеров с их метками. Тем не менее, целевые приложения не всегда подходят для использования этого метода напрямую. Одна из таких областей — подкласс weakly-supervised learning (WSL), а именно complementary-label learning (CLL). CLL — это форма WSL, при которой модели обучаются на основе ярлыков, указывающих классы, к которым относится пример, а не на стандартных метках. Этот подход привлекателен, так как сбор ярлыков-комплементарных знаков требует меньших затрат и энергии. Тем не менее, CLL сталкивается с рядом проблем, в том числе с генерируемым шумом примеров, что оказывает негативное влияние на модели. Это делает необходимым развитие методов, которые могут преодолеть этот шум и повысить качество моделей CLL. #### Метод Мы предлагаем метод Intra-Cluster Mixup (ICM), который отличается от стандартного Mixup тем, что синтезирует данные только из примеров, принадлежащих одному классу. Это позволяет уменьшить шум, связанный с тем, что примеры не принадлежат одному классу, и сохранить ценность CLL. Мы также выясняем, что Mixup в целом неэффективен для CLL из-за характера шума, но ICM может устранить эту проблему. Наша методика включает в себя следующие шаги: выбор примеров из одного класса, смешивание их смешанной меткой, и их использование вместе с оригинальными данными для обучения модели. Это приводит к улучшению точности модели и ее устойчивости к шумам. #### Результаты Мы провели эксперименты на двух типах данных: сбалансированных и несбалансированных. На MNIST, ICM показал увеличение точности на 30%, а на CIFAR — на 10%. Эти результаты подтверждают, что ICM позволяет улучшить модели CLL, даже в условиях недостатка данных. Мы также проанализировали различные аспекты ICM, такие как его влияние на шум, синтезированных примеров и его способность выделять значимые примеры в разных классах. Результаты показывают, что ICM способен эффективно работать в разных условиях, в том числе с предоставлением небольшого количества примеров. #### Значимость Метод ICM может применяться в широком кругу задач WSL, в том числе в сценариях, где данные недостаточно много или трудно получить полные метки. Одной из главных преимуществ ICM является его возможность улучшить качество моделей в условиях нестандартных меток. Это может иметь большое значение в сферах, где сбор полных меток требует огромных затрат, например, в области медицины, где отметь тысячи примеров

Annotation:

In this paper, we investigate the challenges of complementary-label learning (CLL), a specialized form of weakly-supervised learning (WSL) where models are trained with labels indicating classes to which instances do not belong, rather than standard ordinary labels. This alternative supervision is appealing because collecting complementary labels is generally cheaper and less labor-intensive. Although most existing research in CLL emphasizes the development of novel loss functions, the potential...

ID: 2509.17971v1 cs.LG, cs.AI, cs.CV

arXiv PDF

📄 Latent Zoning Network: A Unified Principle for Generative Modeling, Representation Learning, and Classification

2025-09-23

Авторы:

Zinan Lin, Enshu Liu, Xuefei Ning, Junyi Zhu, Wenyu Wang, Sergey Yekhanin

## Контекст Generative modeling, representation learning, и classification являются тремя основными задачами в машинном обучении (ML). Несмотря на то, что существуют совершенно разные подходы для каждой из этих задач, их современные решения в целом независимы друг от друга. Это приводит к разделению ML-процессов и снижению взаимодействия между задачами. Тем не менее, может ли быть придумана общая модель, которая бы решала все три задачи одновременно? Такой подход был бы значительной новостью, так как упростил бы процессы ML и повысил бы их эффективность. Разработка такой модели — основная цель настоящей работы. ## Метод Разработанная модель Latent Zoning Network (LZN) основывается на идее создания общего гауссовского латентного пространства, которое бы синтезировало информацию для всех задач. Каждый тип данных (например, изображения, текст, метки) имеет собственный энкодер, который преобразует данные в соответствующие латентные "зоны". У компонентов также есть декодеры, которые возвращают латентные представления обратно в оригинальные данные. ML-задачи выражаются как композиции этих энкодеров и декодеров. Например, для генерации меток-условием изображений используется энкодер меток и декодер изображений. Для обычного задания входной меткой в модель и использования ее для генерации картинок, LZN извлекает изображение с помощью изображения-энкодера. Также, для classification модель использует изображение-энкодер и метку-декодер. Эта модель была применена во всех трех направлениях, и далее мы рассмотрим результаты этих экспериментов. ## Результаты Чтобы продемонстрировать потенциал LZN, она была применена к трем различным задачам: (1) улучшение изображений в существующих моделях; (2) решение задач представления без внесения внешних ауксиальных функций; (3) решение нескольких задач одновременно. В процессе тестирования LZN на CIFAR10, к содержащейся в ней модели Rectified Flow была добавлена для улучшения FID (Fréchet Inception Distance) — от 2.76 до 2.59, не изменяя основное целевое значение модели. Также LZN показала себя в задаче нейросетевого представления, выполнив уникальное представление в латентном пространстве без дополнительных loss-функций. Она превзошла модели MoCo и SimCLR в downstream linear classification на ImageNet — на 9.3% и 0.2% соответственно. Наконец, в задаче совместной генерации изображений и классификации, LZN продемонстрировала синергию между этими задачами, повысив FID и достигнув стандартных результатов на CIFAR10. ## Значимость LZN представляет собой новую модель, которая может быть применена во многих областях ML, включая изображения, текст, и другие задачи. Она объединяет несколько задач в единую систему,

Annotation:

Generative modeling, representation learning, and classification are three core problems in machine learning (ML), yet their state-of-the-art (SoTA) solutions remain largely disjoint. In this paper, we ask: Can a unified principle address all three? Such unification could simplify ML pipelines and foster greater synergy across tasks. We introduce Latent Zoning Network (LZN) as a step toward this goal. At its core, LZN creates a shared Gaussian latent space that encodes information across all tas...

ID: 2509.15591v1 cs.LG, cs.AI, cs.CV, stat.ML

arXiv PDF

📄 From Data to Diagnosis: A Large, Comprehensive Bone Marrow Dataset and AI Methods for Childhood Leukemia Prediction

2025-09-23

Авторы:

Henning Höfener, Farina Kock, Martina Pontones, Tabita Ghete, David Pfrang, Nicholas Dickel, Meik Kunz, Daniela P. Schacherer, David A. Clunie, Andrey Fedorov, Max Westphal, Markus Metzler

## Контекст Лейкемия — одна из самых распространенных онкологических заболеваний у детей, требующая точной диагностики для выбора эффективного лечения. Диагностика прежде всего основывается на ручном микроскопическом анализе морфологии костного мозка, что требует опыта и знаний. Артефакты в данных и личностные различия в оценке морфологии могут снизить точность диагностики. Несмотря на развитие искусственного интеллекта (AI) в медицине, большинство решений используют закрытые данные и покрывают только часть диагностического процесса. Необходимо разработать широкодоступные данные и методы, покрывающие весь диагностический цикл. ## Метод Для решения проблемы был создан большой, высококачественный, открытый датасет, охватывающий весь диагностический цикл — от детекции клеток до диагноза. Датасет включает изображения 246 педиатрических пациентов, более 40 000 клеток с аннотациями границами, 28 000 клеток с классификационными метками. Использовались методы машинного обучения для детекции клеток, классификации и предсказания диагноза. Для оценки точности использовались показатели: аппаратная погрешность (precision), подвергаемость к ошибке (recall) и F1-меры. ## Результаты Эксперименты показали высокую точность: аппаратная погрешность 0.96 для детекции клеток, AUC 0.98 для классификации, F1-мера 0.61 для классификации 33 классов клеток и F1-мера 0.90 для предсказания диагноза. AI-модели демонстрируют высокую точность в определении клеток и диагноза, предоставляя новые возможности для точного и быстрого диагностического анализа. ## Значимость Разработанный датасет может стать основой для развития методов AI в диагностике лейкемии, повышая точность диагностики и сокращая время проведения диагностических исследований. Он может быть применен в различных областях, включая обучение AI-систем, верификацию диагностических процессов, улучшение клинических решений и повышение качества лечения детей с лейкемией. ## Выводы Разработанный датасет и методы AI оказались эффективными для диагностики лейкемии. Они предоставляют возможность точной диагностики, повышают производительность клинического анализа и могут помочь в улучшении результатов лечения детей с лейкемией. Будущие исследования будут фокусироваться на улучшении точности и общности AI-решений для других онкологических заболеваний.

Annotation:

Leukemia diagnosis primarily relies on manual microscopic analysis of bone marrow morphology supported by additional laboratory parameters, making it complex and time consuming. While artificial intelligence (AI) solutions have been proposed, most utilize private datasets and only cover parts of the diagnostic pipeline. Therefore, we present a large, high-quality, publicly available leukemia bone marrow dataset spanning the entire diagnostic process, from cell detection to diagnosis. Using this ...

ID: 2509.15895v1 cs.LG, cs.AI, cs.CV

arXiv PDF

📄 DiffusionNFT: Online Diffusion Reinforcement with Forward Process

2025-09-23

Авторы:

Kaiwen Zheng, Huayu Chen, Haotian Ye, Haoxiang Wang, Qinsheng Zhang, Kai Jiang, Hang Su, Stefano Ermon, Jun Zhu, Ming-Yu Liu

Далее представлена подробная разметка в формате с заголовками, как указано в задании. ## Контекст Пост-тренировочные методы оптимизации являются ключевыми для улучшения языковых моделей и диффузионных моделей. Однако, для диффузионных моделей, построение эффективных пост-тренировочных стратегий становится сложнее из-за непредсказуемости их дискретных генеративных процессов. Это делает невозможным применение методов, основанных на бутстрэпах, таких как PPO или TRPO. Традиционные подходы, такие как FlowGRPO, пытаются решить эту проблему, но имеют серьезные ограничения: зависимость от решателей, несогласованность между процессами продвижения и отмены, а также сложность интеграции с Classifier-Free Guidance (CFG). Эти факторы приводят к неэффективности, высокому расходу ресурсов и трудностям в реализации. Авторы предлагают DiffusionNFT, новый подход для оптимизации диффузионных моделей напрямую через процесс продвижения с использованием потокового соответствия. ## Метод DiffusionNFT использует потоковые модели для задания явного императивного стиля тренировки напрямую в пространстве продвижения. Он использует потенциальные разности между положительными и отрицательными генерациями, чтобы определить направление улучшения политики. Это позволяет интегрировать реинфорсмент-сигналы в целевую функцию напрямую, не требуя оценки сложной лог-вероятности. Модель использует простую архитектуру с блоками потоков, которые адаптивно вычисляются. Она не требует использования CFG и может работать с любыми алгоритмами решения, включая черные ящики. Это позволяет DiffusionNFT быть более универсальным и эффективным в сравнении с подходами, основанными на FlowGRPO. ## Результаты Для экспериментов были использованы различные датасеты и диффузионные модели, включая SD3.5-Medium. Результаты показывают, что DiffusionNFT на порядок эффективнее FlowGRPO по всем метрикам, в том числе GenEval, FID, и CLIP-Score. Например, DiffusionNFT достигает GenEval-score 0.98 всего за 1000 шагов, в то время как FlowGRPO требует более 5000 шагов и дополнительного применения CFG. Это свидетельствует о существенной экономии ресурсов и улучшении качества генерации. Также проведены анализы точности CFG-фидбэка и эффективности работы с черными ящиками, подтверждающие преимущества DiffusionNFT. ## Значимость DiffusionNFT открывает новые горизонты для оптимизации диффузионных моделей, особенно в контексте их применения в генерировании изображений и текстов. Он устраняет сложности традиционных подходов, таких как требование к CFG или необходимость вычисления лог-вероятности.

Annotation:

Online reinforcement learning (RL) has been central to post-training language models, but its extension to diffusion models remains challenging due to intractable likelihoods. Recent works discretize the reverse sampling process to enable GRPO-style training, yet they inherit fundamental drawbacks, including solver restrictions, forward-reverse inconsistency, and complicated integration with classifier-free guidance (CFG). We introduce Diffusion Negative-aware FineTuning (DiffusionNFT), a new on...

ID: 2509.16117v1 cs.LG, cs.AI, cs.CV

arXiv PDF

📄 Communication Efficient Split Learning of ViTs with Attention-based Double Compression

2025-09-20

Авторы:

Federico Alvetreti, Jary Pomponi, Paolo Di Lorenzo, Simone Scardapane

#### Контекст Виджетные преобразования (Vision Transformers, ViTs) становятся все более популярными в области компьютерного зрения, особенно для задач, где изображения имеют высокое разрешение или требуется высокая точность. Однако обучение таких моделей сталкивается с проблемой высокой стоимости передачи данных, особенно в сценариях с распределенным обучением, таких как Split Learning (SL). Например, для обучения только одного ViT-маленького (ViT-S) применяется около 1,5 ТБ данных. Такой объем передачи данных приводит к большим затратам на пропускную способность сети, что особенно критично для устройств с ограниченными ресурсами или в условиях слабых подключений. Мотивацией для данного исследования является создание метода, позволяющего эффективно обучать ViTs в распределенных средах, снижая требования к передаче данных. #### Метод Разработанная методика, Attention-based Double Compression (ADC), представляет собой новую стратегию коммуникационной эффективности в рамках Split Learning. Она включает в себя две основных компоненты: 1. **Класс-агностичная стратегия сжатия**, основанная на среднем балле внимательной оценки (attention score) в последнем слое клиентского компонента. Она объединяет похожие примеры, независимо от их классов, что позволяет сократить объем передаваемых данных без ущерба для точности модели. 2. **Стратегия сжатия токенов**, которая удаляет менее значимые токены в процессе передачи. Это дополняет предыдущую стратегию, давая возможность значительного снижения объема передачи данных. Весь процесс обучения не требует дополнительных изменений в модели или аппроксимаций градиентов, что делает ADC простым и эффективным в использовании. #### Результаты Эксперименты проводились на стандартных датасетах, таких как CIFAR-10 и ImageNet, с использованием ViT-S. В сравнении с другими методами коммуникационной эффективности, такими как baseline Split Learning или Low-Rank Adaptation (LoRA), ADC показал значительное сокращение объема передаваемых данных. Например, при обучении на ImageNet с ViT-S, ADC уменьшил объем передаваемых данных на 40%, при этом сохранив точность модели почти на уровне стандартных методов. Эти результаты доказывают эффективность ADC в сокращении затрат на передачу данных в распределенных средах. #### Значимость ADC может быть применено в различных областях, где требуется обучение моделей ViT в условиях ограниченных ресурсов, таких как мобильные устройства, слабые подключения или высоконагруженные серверные системы. Этот подход экономит ресурсы, уменьшая требования к пропускной способности и улучшая возможности распределенного обучения. Благодаря своей простоте и эффективности, ADC может стать ключевым инструментом для раз

Annotation:

This paper proposes a novel communication-efficient Split Learning (SL) framework, named Attention-based Double Compression (ADC), which reduces the communication overhead required for transmitting intermediate Vision Transformers activations during the SL training process. ADC incorporates two parallel compression strategies. The first one merges samples' activations that are similar, based on the average attention score calculated in the last client layer; this strategy is class-agnostic, mean...

ID: 2509.15058v1 cs.LG, cs.AI, cs.CV, stat.ML

arXiv PDF

📄 SpeCa: Accelerating Diffusion Transformers with Speculative Feature Caching

2025-09-17

Авторы:

Jiacheng Liu, Chang Zou, Yuanhuiyi Lyu, Fei Ren, Shaobo Wang, Kaixin Li, Linfeng Zhang

#### Контекст Диффузионные модели стали синонимом высококачественного синтеза изображений и видео, но их вычислительные затраты ограничивают их применение в реальном времени. Эти модели сталкиваются с двумя основными проблемами: строгие временные зависимости, затрудняющие параллельное выполнение, и высокая сложность вычислений в процессе денойсинга на каждом шаге. Несмотря на их превосходство в сфере глубокого обучения, эти ограничения приводят к затратному процессу и неэффективности во время выполнения. Мотивацией для разработки SpeCa служит необходимость устранить эти недостатки, обеспечив оптимальный баланс между высоким качеством генерации и эффективностью вычислений. Инновационным подходом является использование спекулятивной характеристики, которая позволяет значительно сократить время выполнения, не ухудшая качество результатов. #### Метод SpeCa представляет собой фреймворк "Forecast-then-verify", основанный на новом подходе Speculative Sampling. Эта технология предсказывает промежуточные фичи для следующих шагов синтеза на основе полностью проанализированных стадий. Особенностью SpeCa является использование простейшего подхода к верификации предсказаний — процесс, не требующий дополнительных параметров и не вносящий значительного технического объема. Динамический механизм выделения ресурсов дает возможность модифицировать использование ресурсов в зависимости от сложности генерации. Например, простые случаи требуют меньше вычислительных ресурсов, в то время как трудные сценарии получают дополнительное внимание. Этот метод обеспечивает эффективность в реальном времени, сохраняя качество генерации даже при высоких ускорениях. #### Результаты В ходе экспериментов были проведены тесты на FLUX, DiT, и HunyuanVideo, показав выдающиеся результаты. На FLUX было достигнуто ускорение 6.34x с лишь 5.5% ухудшением качества. Для DiT ускорение составило 7.3x с сохранением качественной генерации. HunyuanVideo показал 79.84% VBench скор при 6.1x ускорении. Механизм верификации, центральный элемент SpeCa, установил малоизбыточный накладной расход — 1.67%-3.5% по сравнению со стоимостью полного процесса инференса. Эти результаты показали, что SpeCa может быть применено в ситуациях, где высокая скорость и качество необходимы одновременно. #### Значимость SpeCa открывает новые горизонты для реального времени в синтезе изображений и видео. Он применяется в различных сферах, включая VR/AR, игровые приложения, и даже медицинскую изоморфическую генерацию. Основные преимущества включают уменьшение времени выполнения без существенного

Annotation:

Diffusion models have revolutionized high-fidelity image and video synthesis, yet their computational demands remain prohibitive for real-time applications. These models face two fundamental challenges: strict temporal dependencies preventing parallelization, and computationally intensive forward passes required at each denoising step. Drawing inspiration from speculative decoding in large language models, we present SpeCa, a novel 'Forecast-then-verify' acceleration framework that effectively a...

ID: 2509.11628v1 cs.LG, cs.AI, cs.CV

arXiv PDF

📄 Early Detection of Branched Broomrape (Phelipanche ramosa) Infestation in Tomato Crops Using Leaf Spectral Analysis and Machine Learning

2025-09-17

Авторы:

Mohammadreza Narimani, Alireza Pourreza, Ali Moghimi, Parastoo Farajpoor, Hamid Jafarbiglu, Mohsen B. Mesgaran

#### Контекст Браншеполопаха (Phelipanche ramosa) является паразитическим растением, которое подрывает производительность томатных сельскохозяйственных земель, всасывая водные и питательные вещества из растений-хозяев. Данное исследование фокусируется на раннем диагностировании этой вредительской растительности с помощью спектрального анализа листьев и машинного обучения. Браншеполопаха часто выявляется слишком поздно, когда поверхностные симптомы становятся очевидными, что приводит к потере урожая. Для раннего выявления инфицированности необходимо разработать систему, обнаруживающую растение в самых ранних стадиях, когда видимые симптомы отсутствуют. #### Метод Исследование основывается на данных спектрального анализа листьев, полученных в районе Woodland, Калифорния, с использованием портативного спектрометра в диапазоне длин волн от 400 до 2500 нм. Данные были обработаны методами дезидартизации, гладкого сглаживания (Savitzky-Golay) и интерполяции по 1 нм. Для достижения высокой информативности были применены трансформации, например, корреляционный отбор признаков. Для классификации данных применены методы машинного обучения, включая Random Forest, XGBoost, SVM с RBF-ядром и Naive Bayes. Эксперименты проводились на 300 томатных растений в различных стадиях роста, определяемых группами роста (growing degree days, GDD). #### Результаты Эксперименты показали, что ранние стадии инфицированности способствуют отличиям в спектральных отражениях, особенно в области 1500 нм и 2000 нм, связанных с уменьшением влажности листьев у инфицированных растений. Многообразие машинных обучающих способностей достигло 89% точности при ранней стадии развития растений (585 GDD), с высокой степенью идентификации инфицированных растений (0.86) и неинфицированных (0.93). Однако на поздних стадиях развития растений (например, 1568 GDD), точность уменьшилась до 69%, в связи с синдромом селения и влиянием паразита на растение. Несмотря на небольшое количество инфицированных экземпляров, результаты показали, что ближняя сенсорная система, объединенная с машинным обучением, может ранним выявить браншеполопаху до появления видимых симптомов на поверхности листьев. #### Значимость Результаты этого исследования могут быть применены в сельскохозяйственных системах, чтобы уменьшить урожайные потери и оптимизировать ведение томатных угодий. Использование спектрального анализа листьев и машинного обучения обеспечивает быструю и точную диагностику браншеполопахи, даже до появления видимых симптомов, что позволяет проводить

Annotation:

Branched broomrape (Phelipanche ramosa) is a chlorophyll-deficient parasitic weed that threatens tomato production by extracting nutrients from the host. We investigate early detection using leaf-level spectral reflectance (400-2500 nm) and ensemble machine learning. In a field experiment in Woodland, California, we tracked 300 tomato plants across growth stages defined by growing degree days (GDD). Leaf reflectance was acquired with a portable spectrometer and preprocessed (band denoising, 1 nm...

ID: 2509.12074v1 cs.LG, cs.AI, cs.CV, eess.SP, 68T07, 68T45, 68U10, I.5.4; I.4.6; I.2.6

arXiv PDF

📄 Adaptive Token Merging for Efficient Transformer Semantic Communication at the Edge

2025-09-16

Авторы:

Omar Erak, Omar Alhussein, Hatem Abou-Zeid, Mehdi Bennis, Sami Muhaidat

## Контекст Область семантической связи, основанной на трансформерах, является ключевой для современных систем интеллектуального анализа данных и обработки текста. Однако высокая вычислительная сложность и требования к связи препятствуют развертыванию трансформеров на ресурс-ограниченных устройствах, таких как edge-устройства. Эта проблема становится особенно актуальной в ситуациях, где необходимо быстрое взаимодействие и минимальное потребление ресурсов. Необходимость эффективной реализации трансформеров в таких условиях вдохновила разработку адаптивной методики по изменению токенов, нацеленной на эффективное сжатие представлений трансформера во время выполнения. ## Метод Метод предлагаемого фреймворка основывается на адаптивной методике по изменению токенов, которая включает в себя выделение и избавление от семантически повторяющихся токенов в процессе выполнения. Алгоритм построен на многоцелевой оптимизации, где каждое изменение токена проверяется по нескольким критериям: точности решения задачи, затратам вычислительных ресурсов и требованиям к связи. Используется техника Bayesian optimization для поиска оптимальных точек компромисса между этими факторами. Это позволяет адаптировать поведение трансформера к конкретным условиям задачи и условиям связи в реальном времени, не требуя переноса или переучивания модели. ## Результаты Эксперименты проводились на датасетах ImageNet для классификации изображений и Visual Question Answering (VQA) для обработки визуальных запросов. Адаптивная токенная мерж-методика позволила сократить число выполняемых операций с плавающей точкой (FLOPs) на 30% при сохранении точности классификации на уровне необработанного трансформера. Для VQA, алгоритм достиг точности, приближающейся к LLaVA, с потреблением менее трети вычислительных ресурсов и менее 10% ширины канала связи. Эти результаты демонстрируют высокую эффективность и универсальность подхода в условиях ограниченных ресурсов. ## Значимость Предложенный подход может быть применен в различных сценариях, где необходимы быстрые и эффективные вычисления на edge-устройствах, такие как распознавание речи, обработка видео, интеллектуальные системы для IoT. Он предоставляет преимущества в скорости работы, экономии ресурсов и повышении приватности данных, так как снижает вероятность успешных модельно-инверсионных атак. Это делает его привлекательным для разработчиков, которые стремятся к максимальной эффективности в задачах обработки семантических данных на крайних краях сети. ## Выводы Предложенный фреймворк адаптивной токен

Annotation:

Large-scale transformers are central to modern semantic communication, yet their high computational and communication costs hinder deployment on resource-constrained edge devices. This paper introduces a training-free framework for adaptive token merging, a novel mechanism that compresses transformer representations at runtime by selectively merging semantically redundant tokens under per-layer similarity thresholds. Unlike prior fixed-ratio reduction, our approach couples merging directly to in...

ID: 2509.09955v1 cs.LG, cs.AI, cs.CV, eess.IV

arXiv PDF

📄 Adaptive Pareto-Optimal Token Merging for Edge Transformer Models in Semantic Communication

2025-09-13

Авторы:

Omar Erak, Omar Alhussein, Hatem Abou-Zeid, Mehdi Bennis

## Контекст Semantic communication systems, основанные на transformers, являются важной компонентой 6G-сетей, обеспечивая богатые семантические представления для надежного распознавания в условиях шумных каналов. Однако высокая сложность и требования к вычислительным ресурсам этих моделей препятствуют их эффективному использованию в ресурсами ограниченных устройствах. В этом контексте возникает необходимость разработки методов, уменьшающих нагрузку на вычисления, одновременно сохраняя высокую точность и эффективность. ## Метод Работа предлагает фреймворк, основанный на адаптивном маржинализации токенов, для адаптивного сокращения размера токенов в моделях vision transformers. Метод формулируется как многоцелевое оптимизационное задание, которое стремится минимизировать объем передаваемых данных и вычислительные затраты, поддерживая при этом высокую точность. Для построения оптимальных конфигураций используется Gaussian Process-Based Bayesian Optimization, которая позволяет определить парето-оптимальные точки. Такая подход позволяет адаптировать модель в реальном времени в зависимости от условий канала и потребностей приложений. ## Результаты Проведены эксперименты, использующие различные сценарии семантической связи, включая различные уровни шума в канале (SNR). На основе наборов данных, таких как CIFAR-10 и ImageNet, показано, что предлагаемый подход существенно уменьшает число floating-point operations (FLOPs), не ухудшая точность. В сравнении с другими методами, такими как Dynamic Token Pruning и Dynamic Quantization, предлагаемый фреймворк демонстрирует выигрыш в эффективности, сохраняя высокую точность в различных условиях сети. ## Значимость Предлагаемый подход имеет широкие применения в семантической связи, включая 5G/6G-сети, ИИ на основе трансформеров и машинное обучение на крайних устройствах. Он обеспечивает значительную экономию вычислительных ресурсов без существенного потери точности. Его гибкость в процессе между скоростью и точностью делает его идеальным выбором для реализации в реальных системах, где необходимо быстро реагировать на изменения условий сети. ## Выводы Работа представляет собой новую точку в развитии адаптивных методов для semantic communication systems. Она демонстрирует, что адаптивная токенная маржинализация может эффективно компромиссом регулировать вычислительные затраты и точность в реальном времени. Будущие исследования будут сфокусированы на расширении этого подхода для других типов моделей и его интеграции с другими методами оптимизации в семантических сетях.

Annotation:

Large-scale transformer models have emerged as a powerful tool for semantic communication systems, enabling edge devices to extract rich representations for robust inference across noisy wireless channels. However, their substantial computational demands remain a major barrier to practical deployment in resource-constrained 6G networks. In this paper, we present a training-free framework for adaptive token merging in pretrained vision transformers to jointly reduce inference time and transmissio...

ID: 2509.09168v1 cs.LG, cs.AI, cs.CV, eess.IV

arXiv PDF

1
2
8
9
10
11
12
13

Показано 91 - 100 из 125 записей