📊 Статистика дайджестов

Всего дайджестов: 34607 Добавлено сегодня: 484

Последнее обновление: сегодня
Авторы:

Weilin Cai, Le Qin, Shwai He, Junwei Cui, Ang Li, Jiayi Huang

## Контекст Микшерные модели (Mixture of Experts, MoE) стали основной архитектурой для создания крупных языковых моделей (LLMs). Они достигают эффективности за счет снижения расчетов на каждый токен, активируя только небольшую часть сети. Такая спарсинговая методика позволяет моделям масштабироваться, но при этом сталкивается с проблемами связанными с высокой сложностью расчетов и непредсказуемостью задействованных экспертов. Эти характеристики требуют разработки новых подходов, чтобы повысить производительность и сохранить точность моделей. ## Метод Мы предлагаем DualSparse-MoE, систему, которая использует двухуровневую спарсинговую структуру модели. Эта система включает динамическую уменьшающуюся вычислительную нагрузку на уровне тензоров и статическую реконструкцию на уровне нейронов. Методы реализуются без дополнительной тренировки, что означает сохранение устойчивости трансформаций модели. Это позволяет добиться выгоды в скорости вычислений с минимальным влиянием на точность. ## Результаты Мы проверили DualSparse-MoE на трех популярных моделях MoE. Метод позволил потенциально уменьшить вычисления на 25%, при этом снижение точности составило всего 0,08%-0,28%. Кроме того, введенная значимость эксперта в параллельных вычислениях улучшила производительность модели на 1,41 раз, с минимальным деградации точности в 0,5%. ## Значимость Предложенная модель может применяться для эффективной реализации крупных моделей языкового моделирования. Она предоставляет значительный выигрыш в скорости с минимальным ущербным эффекте на точность. Это открывает новые возможности для развития моделей, которые справляются с небольшими ресурсами, но сохраняют высокую производительность и устойчивость. ## Выводы Выводы DualSparse-MoE подтверждают значимость двухуровневой спарсинговой структуры для улучшения эффективности моделей MoE. Мы планируем расширить исследования, исследовав потенциал использования таких подходов в других сферах, таких как модели трансформации изображений или видео, чтобы получить более широкие преимущества.
Annotation:
Mixture of Experts (MoE) has become a mainstream architecture for building Large Language Models (LLMs) by reducing per-token computation while enabling model scaling. It can be viewed as partitioning a large Feed-Forward Network (FFN) at the tensor level into fine-grained sub-FFNs, or experts, and activating only a sparse subset for each input. While this sparsity improves efficiency, MoE still faces substantial challenges due to their massive computational scale and unpredictable activation pa...
ID: 2508.18376v1 cs.LG, cs.DC
Авторы:

Jingkai He, Tianjian Li, Erhu Feng, Dong Du, Qian Liu, Tao Liu, Yubin Xia, Haibo Chen

## Контекст Современные большие языковые модели (LLMs) широко применяются в различных областях, от работы с текстом до генерации кода. Однако для повышения их уровня разума и реактивности внедряются методы оптимизации, такие как reinforcement learning (RL). RL позволяет LLMs становиться более умными в решении задач, но имеет свои особенности. Эта область исследований становится все более актуальной, так как требуется повысить производительность и эффективность процессов обучения с подкреплением для LLMs. Несмотря на развитие RL, существуют проблемы, такие как низкая загрузка GPU во время обучения, что снижает эффективность. В данной статье рассматривается новый подход к ускорению RL для LLMs с помощью использования исторических знаний и оптимизации работы с GPU. ## Метод Система RhymeRL основывается на двух ключевых инновациях. Первой является **HistoSpec** — спекулятивный декодирование инженеринг-движок, который использует схожесть токенов в истории роллаутов для точных предварительных генераций. Второй — **HistoPipe**, двухуровневая стратегия распределения задач, которая использует схожесть распределений роллаутов из истории для балансировки нагрузки между роллаут-рабочими процессами. Эти методы позволяют максимально эффективно использовать GPU и уменьшить временные задержки во время обучения RL. ## Результаты Запуск RhymeRL проводился в реальной производственной среде с масштабом от нескольких до тысяч GPU. Эксперименты показали, что система увеличивает производительность RL на 2.6 раз по сравнению с современными методами, при этом не снижая точности результатов и не изменяя основной RL-парадигмы. Эти результаты подтверждают эффективность использования исторической информации для ускорения и улучшения RL-обучения. ## Значимость Результаты RhymeRL имеют большое значение для области развития LLMs. Они позволяют ускорить процесс RL-обучения без потери точности или изменений в технологическом цикле. Это открывает широкие перспективы для применения RL в различных прикладных задачах, таких как реалистичная генерация текста, игровые решения и принятие решений в реальном времени. ## Выводы Исследования RhymeRL определяют новый подход к ускорению RL-обучения с помощью LLMs. Основные достижения — воспользование историческими данными для улучшения роллаутов и балансировки нагрузки рабочих процессов. Будущие исследования будут направлены на расширение возможностей системы и ее применение в новых сферах, таких как визуально-текстовые модели и гибридные приложения с LLMs.
Annotation:
With the rapid advancement of large language models (LLMs), reinforcement learning (RL) has emerged as a pivotal methodology for enhancing the reasoning capabilities of LLMs. Unlike traditional pre-training approaches, RL encompasses multiple stages: rollout, reward, and training, which necessitates collaboration among various worker types. However, current RL systems continue to grapple with substantial GPU underutilization, due to two primary factors: (1) The rollout stage dominates the overal...
ID: 2508.18588v1 cs.LG, cs.DC
Авторы:

Md Anwar Hossen, Fatema Siddika, Wensheng Zhang, Anuj Sharma, Ali Jannesari

#### Контекст Heterogeneous Federated Learning (HFL) является задачей, в которой несколько клиентов с разными моделями и данными обучают общую модель, не раскрывая свои данные. Эта область исследований привлекательна из-за своего потенциала для решения проблем статистической неоднородности данных и обеспечения конфиденциальности. Однако существующие методы сталкиваются с проблемами, связанными с уменьшением эффективности связи между клиентами и сервером, а также с трудностями при адаптации моделей к высокому неоднородности данных (non-IID). Данная работа сосредоточена на новых подходах к повышению эффективности HFL, опираясь на идею использования классовых прототипов для обмена знаниями. #### Метод Предлагаемый подход, FedProtoKD, основывается на идее **двойного знаний (dual knowledge)**, которая использует **классовые прототипы** и **логиты** как основные средства обмена. Метод включает в себя: 1. **Улучшенную двойную киддагу (dual knowledge distillation)**: логиты и классовые прототипы клиентов бывают переданы на сервер для обновления глобального модели. 2. **Классово-адаптивная широта прототипа (class-wise adaptive prototype margin)** для решения проблемы уменьшения разницы между прототипами в сценариях non-IID. 3. **Подход к оценке важности публичных образцов**, основанный на близости образцов к классовым прототипам, что позволяет улучшить обучение. #### Результаты Проведенные эксперименты показали высокую эффективность FedProtoKD. На различных наборах данных метод демонстрирует улучшение точности от 1,13% до 34,13% в сравнении с состоянием искусства в HFL. Также были проанализированы сценарии с разными уровнями неоднородности данных и размером клиентских выборок. FedProtoKD не только улучшает глобальную точность, но и обеспечивает высокую эффективность при обработке неоднородных данных. #### Значимость FedProtoKD может применяться в различных сценариях, таких как медицина, анализ данных сенсоров, искусственный интеллект. Он обеспечивает: 1. Улучшение производительности в сценариях с высокой неоднородностью данных. 2. Отсутствие необходимости передачи сырых данных, обеспечивая конфиденциальность. 3. Увеличение устойчивости модели к изменениям в распределении данных. #### Выводы FedProtoKD достигает значительных улучшений в HFL, оптимизируя процесс обмена знаниями в клиент-серверной системе. В будущем планируется расширить участие агентов, включая нейронные сети с большей глубиной, и исследовать новые подходы к адаптации моделей в нерегулярных сетях.
Annotation:
Heterogeneous Federated Learning (HFL) has gained attention for its ability to accommodate diverse models and heterogeneous data across clients. Prototype-based HFL methods emerge as a promising solution to address statistical heterogeneity and privacy challenges, paving the way for new advancements in HFL research. This method focuses on sharing only class-representative prototypes among heterogeneous clients. However, these prototypes are often aggregated on the server using weighted averaging...
ID: 2508.19009v2 cs.LG, cs.DC
Авторы:

Sami Alabed, Dominik Grewe, Norman Alexander Rink, Timur Sitdikov, Agnieszka Swietlik, Dimitrios Vytiniotis, Daniel Belov

## Контекст Точное разделение больших машинного обучения моделей на различные устройства — задача, которая играет ключевую роль в современных вычислительных системах. Она приобретает большую значимость в условиях роста мощности вычислений и развития многоуровневых архитектур, требующих эффективного управления ресурсами. Несмотря на прогресс в автоматизации этого процесса, существующие методы часто сталкиваются с ошибками выхода за пределы памяти или значительными затратами времени при поиске оптимального разделения модели. Эти проблемы возникают из-за сложности моделей, их внутренних зависимостей, а также моделей разделения, которые часто испытывают конфликты и неэффективность. Наша мотивация заключается в разработке системы, которая бы устранила эти проблемы, обеспечив быстроту и эффективность разделения моделей на многоуровневых архитектурах. ## Метод Мы предлагаем систему, которая объединяет новую статическую статическую аналитику компилятора с алгоритмом Monte Carlo Tree Search (MCTS). Наш компилятор анализирует модель, определяя (i) тензоры, требующие одинакового разделения при разделении, и (ii) конфликты разделения, которые необходимо устранить. Модель работы MCTS позволяет искать оптимальные решения в условиях сложности и вероятности неоднозначности. Мы также внедряем специальные механизмы для эффективного обнаружения и решения этих конфликтов, чтобы избежать потери времени при неудачных попытках разделения. ## Результаты Мы провели эксперименты на различных моделях машинного обучения, включая BERT, ResNet, и другие. Наши результаты показали, что наш метод значительно превосходит состояние технологий, такие как TensorFlow Auto-Sharding и PyTorch TorchDynamo. Мы обнаружили ранее неизвестные оптимальные решения разделения, что позволило улучшить производительность и эффективность работы моделей на различных типах устройств. Благодаря тому, что наш метод автоматически искал решения, мы существенно снизили время, необходимое для разделения моделей, даже для самых больших моделей. ## Значимость Наша система может применяться в различных областях, включая облачные вычисления, обработку естественного языка, изображений и видео, где необходимо разделение моделей на многоуровневых вычислительных системах. Она обеспечивает улучшения в скорости разделения, точности и эффективности нарушения памяти. Эти преимущества позволяют оптимизировать размер моделей и улучшить их удобство для различных сценариев, включая реального времени и мобильные приложения. Мы также отмечаем, что наш алгоритм является нетривиальным шагом в будущих исследованиях по улучшению систем разделения
Annotation:
Partitioning large machine learning models across distributed accelerator systems is a complex process, requiring a series of interdependent decisions that are further complicated by internal sharding ambiguities. Consequently, existing auto-partitioners often suffer from out-of-memory errors or are prohibitively slow when exploring the exponentially large space of possible partitionings. To mitigate this, they artificially restrict the search space, but this approach frequently yields infeasibl...
ID: 2508.15010v1 cs.LG, cs.DC
Авторы:

Tao Shen, Zexi Li, Didi Zhu, Ziyu Zhao, Chao Wu, Fei Wu

#### Контекст Federated learning (FL) — это машинное обучение, позволяющее клиентам коллективно обучать один и тот же модельный объект без передачи частных данных. Однако FL сталкивается с тем, что различия в данных, называемые данными типичными для клиента (data heterogeneity), могут привести к нестабильности и неэффективности обучения. Клиентский дряйф (client drift) — это одна из проблем, связанных с локальными обновлениями модели в популярной схеме FedAvg. Однако в сценарии межустройствного FL (cross-device FL), дряйф с другой природой, называемый периодным дряйфом (period drift), может наблюдаться из-за того, что те клиенты, принявшие участие в каждой итерации, могут иметь различные распределения данных. Этот дряйф может быть более вреден, чем клиентский, так как оптимизационная цель меняется с каждой итерацией. Данная работа изучает взаимодействие этих двух типов дряйфа и приводит новую рамку для их устранения. #### Метод Методология, предлагаемая в статье, называется FedEve и основывается на прогнозировании и наблюдении (predict-observe framework). В этом подходе используется модель, которая прогнозирует влияние периодного дряйфа на обновление модели, именно это позволяет создать регуляризацию для смягчения негативного эффекта. FedEve предлагает интеграцию клиентского и периодного дряйфа, чтобы два противоположных эффекта могли "подстраиваться" друг против друга и создавать более стабильное обновление модели. Теоретические выводы показывают, что метод FedEve может уменьшить колебания (вариации) модели при обновлении. Это подход, который позволяет улучшить обобщающую способность модели в сценарии cross-device FL с нетипичными данными. #### Результаты Работа включает значительное количество экспериментов, проводимых на реальных данных, чтобы проверить эффективность FedEve. Эксперименты проводились в условиях нетипичных данных (non-iid), которые являются самым сложным сценарием для FL. Результаты показали, что FedEve превосходит другие методы в сценарии cross-device FL, обеспечивая более высокую точность и стабильность. Особенно важно отметить, что FedEve показывает лучший результат в ситуации с высокой нетипичностью данных, когда другие методы страдают от клиентского и периодного дряйфа. Эти результаты доказывают эффективность FedEve в устранении двух видов дряйфа. #### Значимость FedEve имеет широкие перспективы в применении в сценариях с нетипичными данными в межустройствном FL. Помимо улучшения точности модели, FedEve позволяет уменьшить время обучения и повысить эффективность системы в целом. Этот подход также может быть применен в других сценариях, где клиенты имеют различные распределения данных
Annotation:
Federated learning (FL) is a machine learning paradigm that allows multiple clients to collaboratively train a shared model without exposing their private data. Data heterogeneity is a fundamental challenge in FL, which can result in poor convergence and performance degradation. Client drift has been recognized as one of the factors contributing to this issue resulting from the multiple local updates in FedAvg. However, in cross-device FL, a different form of drift arises due to the partial clie...
ID: 2508.14539v1 cs.LG, cs.DC
Авторы:

Soumya Sarkar, Shweta Jain

#### Контекст Стохастический градиентный десцент (SGD) является одной из наиболее распространенных методик для обучения машинного обучения. Особенно актуальным он становится в распределенных системах, где несколько устройств совместно обучают один модель. Однако, существуют проблемы в данном подходе. Например, многие работы, посвященные распределенному SGD, предполагают фиксированную топологию узлов или уделяют недостаточное внимание динамическим изменениям в работе узлов. Это может привести к неэффективному использованию ресурсов и снижению качества обучения. Изучение динамических сетевых топологий, адаптивного выбора узлов и неравномерной агрегации данных может позволить улучшить эффективность и точность распределенных градиентных методов. #### Метод Авторы предлагают **фреймворк Cooperative SGD**, который включает динамические топологии и неравномерную агрегацию с помощью переменных матриц операторов. В этой модели, узлы в распределенной системе могут меняться со временем, и их вклад в глобальную модель не равен. Метод адаптивно определяет вклад каждого узла в обновление глобальной модели с помощью матриц со случайным смешиванием. Эти матрицы позволяют уменьшить координационные трудности и улучшить сходимость алгоритма. Архитектура также предусматривает уменьшение коммуникационных затрат за счет выбора узлов в зависимости от их качественных показателей. #### Результаты В экспериментах, проведенных на различных датасетах (например, CIFAR-10 и ImageNet), авторы показали, что их метод превосходит или эквивалентен существующим подходам в сценариях с динамическими топологиями. Алгоритм достиг высокой сходимости за счет динамического перемешивания узлов и их вклада в обучение. Особенно заметно улучшение в ситуациях, где узлы имеют различные качества или когда сеть имеет переменную пропускную способность. Результаты показали, что Cooperative SGD может обеспечить более быструю сходимость и высокую точность в различных условиях. #### Значимость Фреймворк Cooperative SGD может быть применен в распределенных системах обучения, где узлы могут меняться или иметь различные качественные показатели. Он пригоден для сценариев с переменной пропускной способностью и малой сетевой нагрузкой. Этот подход также может быть применен в областях, где важно уменьшить коммуникационные затраты, например, в мобильных сетях или дата-центрах с ограниченными ресурсами. Помимо этого, этот метод может иметь потенциал в улучшении эффективности обучения в областях с большим количеством участников, таких как распределенное обучение с большим числом устройств. #### Выводы Ос
Annotation:
One of the most common methods to train machine learning algorithms today is the stochastic gradient descent (SGD). In a distributed setting, SGD-based algorithms have been shown to converge theoretically under specific circumstances. A substantial number of works in the distributed SGD setting assume a fixed topology for the edge devices. These papers also assume that the contribution of nodes to the global model is uniform. However, experiments have shown that such assumptions are suboptimal a...
ID: 2508.14565v2 cs.LG, cs.DC
Авторы:

Ahmed Mujtaba, Gleb Radchenko, Radu Prodan, Marc Masana

#### Контекст Federated learning (FL) является популярной архитектурой для обучения моделей машинного обучения в распределенных средах. Одна из его основных проблем — это управление качеством знаний, которые передаются между клиентами и сервером. Эта проблема усиливается в случае неравномерных распределений данных (non-IID), которые широко распространены в реальных приложениях. Для улучшения качества обучения идентификации и исключения нежелательных данных используются сложные стратегии выбора знаний. Например, процессы фильтрации, включающие вычислительно трудоемкие статистические вычисления, неэффективны для реального времени. Наша мотивация заключается в разработке метода, который упрощает фильтрацию знаний, уменьшает вычислительный накладываемый вес и подходит для реального применения в ресурс-ограниченных устройствах. #### Метод Мы предлагаем метод **EdgeFD**, который применяет клиент-серверную архитектуру, но значительно упрощает процесс фильтрации знаний. Метод основывается на локальном кластеризации (KMeans), который автоматически заменяет сложные статистические вычисления. На клиентской стороне фильтруется как внутри-распределенная (in-distribution), так и выходная за распределение (out-of-distribution) данные. Это позволяет уменьшить количество требуемых вычислений, упростить обработку и выделить качественные знания для обмена. Базируясь на этой системе, мы реализовали клиент-серверную систему, где сервер обрабатывает распределенные знания, а клиенты активно фильтруют локальные модели. Это устраняет нужду в серверной фильтрации, которая в противном случае могла бы добавить значительный латентный вес. #### Результаты Мы провели эксперименты по оценке качества метода EdgeFD на примерах с несколькими уровнями неравномерности распределения данных. Данные были разделены на три категории: сильно неравномерные (strong non-IID), слабо неравномерные (weak non-IID) и равномерные (IID). Метод показал высокую эффективность, существенно превосходя существующие подходы, в том числе state-of-the-art методы. Мы также провели сравнение качества знаний, которые передаются к серверу, и обнаружили, что EdgeFD выдает значительно более точные и актуальные результаты. Это достигается благодаря уменьшению расхождений в данных и улучшению структуры обмена знаний. #### Значимость EdgeFD может применяться в различных областях, таких как здравоохранение, персонализация контента, интеллектуальные системы обнаружения, и другие виды приложений, где данные хранятся на клиентских устройствах. Метод обеспечивает улучшенную эффективность в параллельном обучении, уменьшает накладные расходы, позволяя применять федеративное обучение на ре
Annotation:
Federated distillation has emerged as a promising collaborative machine learning approach, offering enhanced privacy protection and reduced communication compared to traditional federated learning by exchanging model outputs (soft logits) rather than full model parameters. However, existing methods employ complex selective knowledge-sharing strategies that require clients to identify in-distribution proxy data through computationally expensive statistical density ratio estimators. Additionally, ...
ID: 2508.14769v1 cs.LG, cs.DC
Авторы:

Jie Shi, Arno P. J. M. Siebes, Siamak Mehrkanoon

## Контекст **Область исследования и существующие проблемы** Финансовая стабильность в поставочных цепях чрезвычайно важна для корпоративных участников и финансовых учреждений. Однако существуют значительные проблемы, такие как зависимость от силовых зон, несовпадение данных и недостаток транспарентности в кредитных оценках. Эти проблемы способствуют неэффективным решениям, ограниченной моделированию и нехватке доверия в процессе принятия решений. **Мотивация** Высокая степерь риска, связанная с кредитными убытками, требует моделей, которые не только предоставляют точные оценки, но и обеспечивают максимальную транспарентность. Необходимо создать архитектуру, которая учитывает эти вызовы, объединяя технологии федеративного обучения с методами объясняемого ИИ. ## Метод **Описание методологии и технических решений** Разработанная Trans-XFed архитектура объединяет федеративное обучение с объясняемым ИИ. Основным элементом является FedProx, улучшенный с помощью гомоморфной шифровки, обеспечивающей конфиденциальность данных. Для улучшения работы с классовым несбалансом и независимыми и неидентично распределенными (Non-IID) данными введена стратегия выбора клиентов на основе производительности (PBCS). Эта стратегия способствует быстрому схождению модели. Блок трансформера включает в себя элементы объясняемого ИИ, которые обеспечивают прозрачность в решениях. Для более детального анализа применяется технология integrated gradient explainable AI. **Архитектура** Структура Trans-XFed включает федеративный худ, который объединяет клиентские модели на основе локальных данных. Эти модели обучаются с помощью улучшенного FedProx, включающего гомоморфную шифровку для защиты конфиденциальности. Трансформерный блок предоставляет подробный анализ функций, которые были выучены, что повышает прозрачность. ## Результаты **Описание экспериментов и полученных результатов** Исследования проводились на реальных данных поставочных цепей. Модель Trans-XFed показала высокую точность кредитных оценок, превосходя несколько базовых моделей. Эксперименты показали, что стратегия PBCS улучшает сходимость и обеспечивает более сбалансированный обученный кластер. Трансформерные блоки обеспечили значительный прирост в транспарентности, позволяя понять, какие факторы влияют на решения. Также исследования подтвердили, что Trans-XFed обеспечивает конфиденциальность, требуемую в финансовых приложениях. ## Значимость **Области применения и потенциальное влияние** Trans-XFed может быть применена в сферах, где кредитные оценки имеют реш
Annotation:
This paper proposes a Trans-XFed architecture that combines federated learning with explainable AI techniques for supply chain credit assessment. The proposed model aims to address several key challenges, including privacy, information silos, class imbalance, non-identically and independently distributed (Non-IID) data, and model interpretability in supply chain credit assessment. We introduce a performance-based client selection strategy (PBCS) to tackle class imbalance and Non-IID problems. Th...
ID: 2508.13715v1 cs.LG, cs.DC
Авторы:

Yue Xia, Tayyebeh Jahani-Nezhad, Rawad Bitar

## Контекст Федеративное обучение с использованием нейросетевых моделей приобретает все большую значимость в различных областях, включая медицину, финансы и образование. Однако существуют несколько значимых вызовов, которые необходимо преодолеть. Одной из ключевых проблем является безопасность данных участников, которая требует строгих мер сохранности приватности. Также важно обеспечивать защиту от атак типа "Byzantine", когда участники могут отправлять поддельные или неточные данные. Кроме того, существуют ограничения по сетевой эффективности, так как данные участников могут быть расположены по всему миру. Наша исследовательская группа стремится разработать фреймворк, который решал бы эти проблемы, обеспечивая эффективность, безопасность и точность. ## Метод Мы предлагаем Fed-DPRoC, фреймворк, который объединяет три ключевых аспекта: клиентскую компрессию, защиту от атак типа "Byzantine" и защиту конфиденциальности данных. Мы ввёли понятие "robust-compatible compression", позволяющего уменьшать объём передаваемых данных при удерждении их высокой ценности. Наша методология включает в себя использование Johnson-Lindenstrauss (JL) transform для компрессии данных, а также алгоритм robust averaging для точного агрегирования. Это позволяет нам гарантировать, что фреймворк не только устойчив к атакам, но и сохраняет конфиденциальность данных с помощью метода differential privacy. ## Результаты Мы проводили эксперименты с использованием датасетов CIFAR-10 и Fashion MNIST, чтобы проверить нашу теоретическую модель. Мы сравнивали RobAJoL — вариант нашего фреймворка — с другими методами, охватывая различные атаки типа "Byzantine". Результаты показали, что RobAJoL обеспечивает значительно более высокую точность и устойчивость в условиях атак. Кроме того, технология JL transform позволяет снизить требования к сети, что делает наш фреймворк эффективным в условиях сильных ограничений по сетевому трафику. ## Значимость Наш фреймворк Fed-DPRoC может быть применён в различных сценариях, где нужна защита конфиденциальных данных, устойчивость к атакам и эффективность обмена данными. Например, это могут быть мобильные приложения, которые обмениваются данными с сервером, но хотят сохранять конфиденциальность пользователей. Благодаря своей эффективности и гибкости, наша технология может стать ключевым инструментом для будущих развитий в области федеративного обучения. ## Выводы Мы сумели доказать, что Fed-DPRoC является эффективным фреймворком для обеспечения коммуникационной эффективности, защиты конфиденциальности и устойчивости к атакам в фе
Annotation:
We propose Fed-DPRoC, a novel federated learning framework that simultaneously ensures differential privacy (DP), Byzantine robustness, and communication efficiency. We introduce the concept of robust-compatible compression, which enables users to compress DP-protected updates while maintaining the robustness of the aggregation rule. We instantiate our framework as RobAJoL, combining the Johnson-Lindenstrauss (JL) transform for compression with robust averaging for robust aggregation. We theoret...
ID: 2508.12978v1 cs.LG, cs.DC, cs.IT, math.IT
Авторы:

Keumseo Ryum, Jinu Gong, Joonhyuk Kang

## Контекст Federated learning (FL) представляет собой метод обучения распределенных моделей с использованием частных данных клиентов без передачи их на сервер. Он позволяет создавать мощные модели, не нарушая приватность данных. Однако FL сталкивается с проблемами, связанными с двумя основными типами неоднородности: данных и системных. Данная неоднородность снижает эффективность обучения и приводит к несбалансированным результатам. Особенно заметны эффекты неоднородности в гетерогенных средах, где клиенты имеют различные ресурсы вычислений и интернет-соединения. Большинство существующих подходов к FL не учитывают эти ограничения, давая преимущество клиентам с более высоким вычислительным мощностью. Таким образом, необходимо разработать метод, который бы учитывал различия в ресурсах клиентов и обеспечивал справедливость и эффективность в FL. ## Метод Мы предлагаем SHEFL – новую систему FL, ориентированную на учет ресурсов клиентов. Основной идеей SHEFL является распределение моделей в зависимости от ресурсов каждого клиента. Наиболее мощные клиенты получают больше моделей, а менее мощные — меньше. Это позволяет оптимизировать используемые ресурсы и уменьшить влияние неоднородности. Кроме того, мы предлагаем инновационный способ слияния моделей, который учитывает различия в вычислительных возможностях клиентов. Для этих целей введена динамическая схема ресурсоориентированного слияния, которая может настраивать вклад каждого клиента в зависимости от его ресурсов. Это позволяет уменьшить влияние клиентов с ограниченными ресурсами в узких условиях и увеличить его при их готовности более активно участвовать в процессе обучения. ## Результаты Мы провели значительный набор экспериментов для оценки эффективности SHEFL. Клиенты использовали различные конфигурации вычислительных мощностей и интернет-соединений. Мы сравнили нашу систему с другими подходами FL, в том числе с теми, которые используют глобальное слияние или дистилляцию. Результаты показали, что SHEFL эффективно компенсирует неоднородность благодаря распределенному распределению моделей и динамическому слиянию. Это привело к улучшению справедливости результатов и общей производительности в сравнении с другими подходами. Также мы отметили, что SHEFL значительно сокращает необходимый вычислительный ввод, что делает его более эффективным в ресурсозатратных средах. ## Значимость SHEFL может применяться в различных сценариях, где необходима эффективность и справедливость в FL, такие как здравоохранение, финансы и удаленное обучение. Он предлагает несколько преимуществ по сра
Annotation:
Federated learning enables distributed training with private data of clients, but its convergence is hindered by data and system heterogeneity in realistic communication scenarios. Most existing system heterogeneous FL schemes utilize global pruning or ensemble distillation, yet they often overlook typical constraints required for communication efficiency. Meanwhile, deep ensembles can aggregate predictions from individually trained models to improve performance, but current ensemble-based FL me...
ID: 2508.08552v1 cs.LG, cs.DC
Показано 71 - 80 из 83 записей