📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 HydroFusion-LMF: Semi-Supervised Multi-Network Fusion with Large-Model Adaptation for Long-Term Daily Runoff Forecasting

2025-10-08

Авторы:

Qianfei Fan, Jiayu Wei, Peijun Zhu, Wensheng Ye, Meie Fang

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Accurate decade-scale daily runoff forecasting in small watersheds is difficult because signals blend drifting trends, multi-scale seasonal cycles, regime shifts, and sparse extremes. Prior deep models (DLinear, TimesNet, PatchTST, TiDE, Nonstationary Transformer, LSTNet, LSTM) usually target single facets and under-utilize unlabeled spans, limiting regime adaptivity. We propose HydroFusion-LMF, a unified framework that (i) performs a learnable trend-seasonal-residual decomposition to reduce non...

ID: 2510.03744v1 cs.LG, cs.AI, cs.DC, cs.NE, physics.geo-ph

arXiv PDF

📄 LoRAFusion: Efficient LoRA Fine-Tuning for LLMs

2025-10-05

Авторы:

Zhanda Zhu, Qidong Su, Yaoyao Ding, Kevin Song, Shang Wang, Gennady Pekhimenko

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Low-Rank Adaptation (LoRA) has become the leading Parameter-Efficient Fine-Tuning (PEFT) method for Large Language Models (LLMs), as it significantly reduces GPU memory usage while maintaining competitive fine-tuned model quality on downstream tasks. Despite these benefits, we identify two key inefficiencies in existing LoRA fine-tuning systems. First, they incur substantial runtime overhead due to redundant memory accesses on large activation tensors. Second, they miss the opportunity to concur...

ID: 2510.00206v1 cs.LG, cs.AI, cs.DC

arXiv PDF

📄 Beyond Aggregation: Guiding Clients in Heterogeneous Federated Learning

2025-10-01

Авторы:

Zijian Wang, Xiaofei Zhang, Xin Zhang, Yukun Liu, Qiong Zhang

## Контекст Federated learning (FL) широко применяется в сферах, где крайне важно обеспечить конфиденциальность данных, например, в медицине. Однако в таких системах возникает статистическая гомогенность: данные, сборенные различными узлами (например, разных больницах), существенно различаются. Традиционные методы FL фокусируются на суммировании моделей от всех узлов, но не оптимально используют потенциал центрального сервера. Возникает вопрос: а не мог бы сервер не только обучать модель, но и активно направлять новых запросов к тем узлам, которые лучше всего подходят для их решения? Мотивированные этой идеей, авторы предлагают новую модель FL, где сервер активно управляет потоком задач, направляя их к наиболее подходящим клиентам. Эта идея основывается на сценарии медицины: при поступлении нового пациента сервер может рекомендовать ему самую подходящую больницу, оснащённую для решения его конкретной проблемы. Таким образом, FL становится не только системой для обучения, но и интеллектуальной системой управления ресурсами. ## Метод Предлагаемая модель основывается на использовании концепции правдоподобия задачи. Центральный сервер не только обучает модели узлов, но и научится прогнозировать, какой узел лучше всего сможет решить конкретную задачу. Для этого используется распределение локальных моделей и задач в сети, чтобы найти точное соответствие между запросом и клиентом. Архитектура включает в себя два основных компонента: моделирование локальных моделей на каждом узле и расчёт правдоподобия, чтобы определить наиболее подходящий клиент для нового запроса. Это позволяет системе не только обучать модели, но и эффективно управлять ресурсами в сети. Такой подход значительно увеличивает точность работы системы и позволяет использовать FL в сценариях, где необходимы быстрые и точные решения. ## Результаты В экспериментах авторы использовали стандартные датасеты для FL (такие как CIFAR-10 и FMNIST), чтобы протестировать свой подход. Результаты показали, что новая модель не только улучшает точность моделей узлов, но и повышает точность управления задачами. Так, например, на датасете CIFAR-10 система показала значительное улучшение в точности моделей по сравнению с традиционными подходами FL. Это не только подтверждает эффективность метода, но и демонстрирует его применимость в реальных сценариях, где требуется оптимальное использование ресурсов и быстрая реакция на запросы. ## Значимость Новая модель предлагает широкие области применения в сферах, где необходимо эффективно управлять ресурсами и быстро реагировать на запросы. Например, в м

Annotation:

Federated learning (FL) is increasingly adopted in domains like healthcare, where data privacy is paramount. A fundamental challenge in these systems is statistical heterogeneity-the fact that data distributions vary significantly across clients (e.g., different hospitals may treat distinct patient demographics). While current FL algorithms focus on aggregating model updates from these heterogeneous clients, the potential of the central server remains under-explored. This paper is motivated by a...

ID: 2509.23049v1 cs.LG, cs.AI, cs.DC

arXiv PDF

📄 FedFiTS: Fitness-Selected, Slotted Client Scheduling for Trustworthy Federated Learning in Healthcare AI

2025-09-25

Авторы:

Ferdinand Kahenga, Antoine Bagula, Sajal K. Das, Patrick Sello

## Контекст Federated Learning (FL) является важной концепцией в области машинного обучения, позволяющей обучать модели на распределенных данных, сохраняя при этом приватность и безопасность. Однако в сферах, таких как медицина, FL сталкивается с несколькими вызовами. Несбалансированные, нестандаризированные (non-IID) данные и нестабильность участников являются значимыми проблемами, подвергающими FL риску неточности и неустойчивости. Безотказные атаки, такие как подделка данных или "ложное обучение", также становятся возможными в таких системах. Из-за этих особенностей, создание системы FL, которая обеспечивает доверие, справедливость и эффективность, является ключевым положением для успешного применения в сфере здравоохранения. ## Метод FedFiTS (Fitness-Selected, Slotted Client Scheduling) является продолжением линии FedFaSt, но имеет особый фокус на доверии и справедливости. Методология FedFiTS основывается на трех-фазной стратегии: свободное обучение, естественное отбор при помощи фитнеса, и слот-агрегация с участием групп. Фитнес-подбор выбирает клиентов на основе их контрибьюции к общему развитию модели, скрывая таким образом нестабильных участников. Динамический клиентский счет и адаптивный порог используются для улучшения конвергенции. Наконец, участники группируются в "слоты" для эффективной связи. Конвергентная аналитика FedFiTS проверена в области как convex, так и non-convex целей. ## Результаты Результаты экспериментов FedFiTS показали его превосходство над классическим FedAvg, FedRand и FedPow в тестах на аккуратность, время до настройки модели, и устойчивость к атакам. В частности, на данных пневмонии из медицинских изображений (X-ray), классических по силу знака (MNIST, FMNIST) и агро-данных (Crop Recommendation), FedFiTS показал самые высокие результаты в точности и скорости обучения. Также, FedFiTS демонстрирует высокую устойчивость к типичным атакам, таким как подделка данных или систематическая дискредитация агентов. ## Значимость FedFiTS может быть применен в многочисленных областях здравоохранения, включая распознавание изображений, анализ данных геномов, и системы рекомендаций в агрономии. Его главные преимущества заключаются в более эффективном использовании ресурсов и улучшении доверия в системах FL. Это может привести к более точным моделям в сфере здравоохранения, что повысит качество и быстроту выбора решений в критических ситуациях. FedFiTS также может быть расширен для использования в других нестабильных FL-системах. ## Выводы FedFiTS показал свою эффективность в трех основных областях: доверие, справедливость и эффективность. Он п

Annotation:

Federated Learning (FL) has emerged as a powerful paradigm for privacy-preserving model training, yet deployments in sensitive domains such as healthcare face persistent challenges from non-IID data, client unreliability, and adversarial manipulation. This paper introduces FedFiTS, a trust and fairness-aware selective FL framework that advances the FedFaSt line by combining fitness-based client election with slotted aggregation. FedFiTS implements a three-phase participation strategy-free-for-al...

ID: 2509.19120v1 cs.LG, cs.AI, cs.DC

arXiv PDF

📄 FedFusion: Federated Learning with Diversity- and Cluster-Aware Encoders for Robust Adaptation under Label Scarcity

2025-09-25

Авторы:

Ferdinand Kahenga, Antoine Bagula, Patrick Sello, Sajal K. Das

## Контекст Federated learning (FL) является важной технологией для обучения моделей на данных, распределенных по множеству устройств или клиентов, не требуя передачи их в центральную точку. Однако практическое применение FL сталкивается с несколькими вызовами. Одним из них является неизбежное различие функциональных пространств между клиентами, которое приводит к несовместимости моделей. Кроме того, данные на клиентских устройствах часто являются нестандартными (non-IID), что усложняет обучение общей модели. Несомненно, что самый серьезный вызов в FL — это нехватка меток (label scarcity), которая ограничивает возможности обучения эффективной модели. Эти проблемы могут отрицательно сказаться на точности модели, робастности и справедливости. Мотивация FedFusion — развитие фреймворка, который эффективно решает эти проблемы с помощью трансфер-learning, подходов к разнообразию и кластеризации, а также фругального меток. ## Метод FedFusion — это фреймворк, который комбинирует методы трансфер-learning и подходы к поддержанию разнообразия и кластеризации. Он включает в себя три типа клиентов: **teacher-clients**, которые обладают достаточным количеством меток и направляют **learner-clients**, которые имеют меньше меток или их отсутствие. Teacher-clients используют **confidence-filtered pseudo-labels**, чтобы обучать learner-clients, при этом применяется **domain-adaptive transfer** для адаптации моделей к разным клиентам. FedFusion использует **diversity-aware encoders (DivEn)**, которые учитывают различия в данных между клиентами, включая **DivEn-mix** для смешения разнородных данных и **DivEn-c** для поддержания кластеризации. Для сохранения глобального когерентности, FedFusion использует **similarity-weighted classifier coupling**, что позволяет избежать преобладания данных-богатых клиентов и повысить производительность клиентов с небольшим количеством меток. Также FedFusion включает **frugal-labelling pipeline**, которая основывается на **self-/semi-supervised pretext training** и **selective fine-tuning** для уменьшения необходимости ручной маркировки. ## Результаты Для оценки FedFusion проведены эксперименты на нескольких датасетах, включая **tabular datasets** (такие как Adult и COMPAS) и **imaging datasets** (такие как CIFAR-10 и CIFAR-100), в разных режимах (IID, non-IID и label-scarce). Результаты показали, что FedFusion показал лучшую точность, робастность и справедливость по сравнению с состоянием искусства (state-of-the-art, SOTA), в том числе **FedAvg**, **FedProx** и **FedPer**. На датасетах CIFAR-10 и CIFAR-100, FedFusion показал **10-15% выигрыша в точности** в режимах с небольшим количеством меток. Также, FedFusion показал низкие значения **communication overhead** и **computation cost**, что делает его пригодным для реальных приложений. ## Значимость FedFusion имеет широкие области применения, включая различные сценарии, такие как медицина, моби

Annotation:

Federated learning in practice must contend with heterogeneous feature spaces, severe non-IID data, and scarce labels across clients. We present FedFusion, a federated transfer-learning framework that unifies domain adaptation and frugal labelling with diversity-/cluster-aware encoders (DivEn, DivEn-mix, DivEn-c). Labelled teacher clients guide learner clients via confidence-filtered pseudo-labels and domain-adaptive transfer, while clients maintain personalised encoders tailored to local data. ...

ID: 2509.19220v1 cs.LG, cs.AI, cs.DC

arXiv PDF

📄 Robust LLM Training Infrastructure at ByteDance

2025-09-24

Авторы:

Borui Wan, Gaohong Liu, Zuquan Song, Jun Wang, Yun Zhang, Guangming Sheng, Shuguang Wang, Houmin Wei, Chenyuan Wang, Weiqiang Lou, Xi Yang, Mofan Zhang, Kaihua Jiang, Cheng Ren, Xiaoyun Zhi, Menghan Yu, Zhe Nan, Zhuolin Zheng, Baoquan Zhong, Qinlong Wang, Huan Yu, Jinxin Chi, Wang Zhang, Yuhan Li, Zixian Du, Sida Zhao, Yongqiang Zhang, Jingzhe Tang, Zherui Liu, Chuan Wu, Yanghua Peng, Haibin Lin, Wencong Xiao, Xin Liu, Liang Xiang

## Контекст С ростом интереса к обучению бо LARGE LANGUAGE MODELS (LLMs) инфраструктура обучения достигла значительных масштабов, включая сотни тысяч GPU. Однако при таких масштабах возникает значительное количество проблем, таких как CUDA-ошибки, NaN-значения и зависания заданий, которые значительно снижают эффективность и надежность тренировочных процессов. Современные методы обучения LLMs должны учитывать эти задачи, обеспечивая высокую производительность, точность диагностики и устойчивость к ошибкам. Поэтому целью данного исследования является разработка системы управления GPU-инфраструктурой, которая обеспечивает высокую устойчивость и эффективность процесса обучения LLMs в реальном времени. ## Метод Методология разработки ByteRobust основывается на понимании уникальных характеристик процесса обучения LLMs. Используются методы автоматического диагностирования ошибок, таких как динамический мониторинг и анализ тренировочных данных. Архитектура ByteRobust включает в себя несколько модулей: модуль мониторинга, модуль распознавания ошибок и модуль восстановления. Модуль мониторинга наблюдает за процессом обучения, в том числе за состоянием GPU и статистикой процесса. Модуль распознавания ошибок использует методы машинного обучения для диагностики проблем. Модуль восстановления активируется при обнаружении ошибки и применяет методы, такие как перезапуск заданий и дедупликация данных, для быстрого восстановления. ## Результаты Удачные эксперименты проведены на платформе с более чем 200 000 GPU. Был проведен тренировочный процесс LLM на 9 600 GPU, длительностью три месяца. Был достигнут рекордный результат с 97% успешного времени до первого провала (ETTR), что значительно превышает стандартные показатели. Была также доказана эффективность ByteRobust в обнаружении и восстановлении ошибок: в 85% случаев было достигнуто мгновенное восстановление с заданий после обнаруженных проблем. ## Значимость ByteRobust может быть применен в различных областях, включая образование, медицину, финансы и искусственный интеллект. Он позволяет не только увеличить стабильность процесса обучения LLMs, но и повысить эффективность использования ресурсов. Этот подход может стать ключевым для будущих исследований в области масштабируемого обучения языковых моделей. ## Выводы На основе полученных результатов, ByteRobust продемонстрировал высокую эффективность в обнаружении и восстановлении ошибок во время обучения LLMs. Будущие исследования будут сконцентрированы на расширении функционала системы, включая улучшение методов диагностики и восстановления, а также оптимизацию и

Annotation:

The training scale of large language models (LLMs) has reached tens of thousands of GPUs and is still continuously expanding, enabling faster learning of larger models. Accompanying the expansion of the resource scale is the prevalence of failures (CUDA error, NaN values, job hang, etc.), which poses significant challenges to training stability. Any large-scale LLM training infrastructure should strive for minimal training interruption, efficient fault diagnosis, and effective failure tolerance ...

ID: 2509.16293v1 cs.LG, cs.AI, cs.DC

arXiv PDF

📄 Cluster Workload Allocation: A Predictive Approach Leveraging Machine Learning Efficiency

2025-09-24

Авторы:

Leszek Sliwko

#### Контекст Масштабная развертываемость кластерных вычисльных систем приводит к сложностям в эффективной аллокации рабочей нагрузки. Одним из ключевых задачей является распределение задач на оптимальные узлы кластера, учитывая ограничения, такие как заданные предпочтения к узлам или их способность выполнять определенные типы работ. Традиционными методами являются ручное распределение или статические алгоритмы, которые не всегда учитывают сложную динамику кластера. Это приводит к потерям в производительности, неэффективном использовании ресурсов и невысоком качестве обслуживания. Мотивация заключается в использовании машинного обучения (ML) для автоматизации рабочей нагрузки и улучшения её эффективности. #### Метод Для решения этой проблемы использовано реальные данные кластера Google Cluster Data (GCD). Алгоритмы ML были применены для определения задач, которые могут выполняться только на ограниченном числе узлов (node affinity operators). Предварительная обработка данных включала извлечение атрибутов узлов и ограничений задач, а также их представление с помощью one-hot encoding. Классификаторы, включая Artificial Neural Networks, K-Nearest Neighbours, Decision Trees, Naive Bayes, Ridge Regression, Adaptive Boosting и Bagging, были применены для прогнозирования подходящих узлов для задач. Ансамбль вебесточного классификатора (ensemble voting classifier) был оптимизирован для максимальной точности и F1-меры. #### Результаты Проведенные эксперименты показали, что метод эффективно распределяет задачи, используя 10-классовый one-hot encoding для ограничений. ML-алгоритмы показали высокую точность, особенно с Adaptive Boosting и Bagging, которые достигли 98% точности и межклассового ошибки менее 1.8%. Эти результаты были получены на основе реальных треков Google Cluster Data, где задачи распределялись между 12,5 к узлов. Оптимизированные модели показали лучшую производительность по сравнению с традиционными методами, повысив эффективность аллокации рабочей нагрузки. #### Значимость Предложенная модель имеет широкий потенциал применения в кластерных вычислениях, в частности, для автоматизации рабочей нагрузки, где существуют ограничения на выполнение задач только на определенных узлах. Метод позволяет уменьшить стоимость обслуживания, увеличить плотность использования ресурсов, и улучшить качество обслуживания. Он также может быть применен в различных сферах, где требуется современный подход к распределенным вычислениям, таких как облачные вычисления и Big Data. #### Выводы Результаты исследования показали, что ML-алгоритмы эффективно решают задачи рабочей нагрузки в кластерах, особенно когда задачи имеют ограничения на выполнение только определенных узлов. Оптимизированный ensemble voting classifier показал самые высокие результаты. В бу

Annotation:

This research investigates how Machine Learning (ML) algorithms can assist in workload allocation strategies by detecting tasks with node affinity operators (referred to as constraint operators), which constrain their execution to a limited number of nodes. Using real-world Google Cluster Data (GCD) workload traces and the AGOCS framework, the study extracts node attributes and task constraints, then analyses them to identify suitable node-task pairings. It focuses on tasks that can be executed ...

ID: 2509.17695v1 cs.LG, cs.AI, cs.DC, cs.SE

arXiv PDF

📄 Inference Offloading for Cost-Sensitive Binary Classification at the Edge

2025-09-23

Авторы:

Vishnu Narayanan Moothedath, Umang Agarwal, Umeshraja N, James Richard Gross, Jaya Prakash Champati, Sharayu Moharir

#### Контекст В последние годы растет значительно интерес к использованию возможностей искусственного интеллекта в реальных приложениях. Одним из ключевых аспектов этого роста является возможность выполнения вычислений в граничных устройствах (edge devices), не задействовав удаленных серверов. Эта технология, известная как edge intelligence, позволяет избежать задержек в обработке данных, уменьшает нагрузку на сеть и обеспечивает более высокую конфиденциальность. Однако этот подход имеет свои ограничения, в том числе ограниченные вычислительные мощности и память в граничных устройствах. Для работы с большими моделями необходимо использовать удаленные серверы, что приводит к дополнительным затратам на сеть и время отклика. В данной работе мы рассматриваем систему под названием Hierarchical Inference (HI), в которой модели интерпретируются в граничных устройствах, но могут быть дополнительно отправлены на удаленные серверы для дополнительной обработки в случае необходимости. #### Метод Для оптимизации процесса определения класса бинарной классификации в HI-системах мы предлагаем новую политику определения двух порогов (two-threshold policy). Эта политика определяет, когда следует использовать результаты локальной модели и когда отправлять обработку на удаленный сервер. Мы используем обучение с подкреплением в реальном времени для поиска оптимальных порогов в динамических условиях. Для необученных моделей мы предлагаем общую структуру H2T2, которая требует только ограниченной обратной связи во время выполнения. Метод H2T2 является адаптивным и может быть использован для любых моделей, не требуя их предварительной обученности. Мы оптимизируем характеристики времени отклика и точности классификации в течение времени выполнения. #### Результаты Мы проводили эксперименты с использованием реальных данных, в том числе CIFAR-10 и IMDB. Мы сравнивали наши результаты с двумя базовыми политиками: одной с одним порогом и другой, оптимизирующей порог удаленной модели на уровне оптимального выбора. Наши результаты показали, что H2T2 показывает высокую точность и эффективность, существенно превосходя другие политики, особенно при условиях различных классов данных. Мы также проводили эксперименты, демонстрирующие, что H2T2 поддается эффективной адаптации к разным условиям распределения данных. #### Значимость Наш подход может быть использован в приложениях, требующих высокой точности и минимальных затрат на обработку, таких как распознавание речи, детекция объектов и задачи, требующие временной эффективности. Избегание стоимостных порогов может приложиться в системах, где каждый промах в классификации им

Annotation:

We focus on a binary classification problem in an edge intelligence system where false negatives are more costly than false positives. The system has a compact, locally deployed model, which is supplemented by a larger, remote model, which is accessible via the network by incurring an offloading cost. For each sample, our system first uses the locally deployed model for inference. Based on the output of the local model, the sample may be offloaded to the remote model. This work aims to understan...

ID: 2509.15674v1 cs.LG, cs.AI, cs.DC

arXiv PDF

📄 RLinf: Flexible and Efficient Large-scale Reinforcement Learning via Macro-to-Micro Flow Transformation

2025-09-23

Авторы:

Chao Yu, Yuanqing Wang, Zhen Guo, Hao Lin, Si Xu, Hongzhi Zang, Quanlu Zhang, Yongji Wu, Chunyang Zhu, Junhao Hu, Zixiao Huang, Mingjie Wei, Yuqing Xie, Ke Yang, Bo Dai, Zhexuan Xu, Xiangyuan Wang, Xu Fu, Zhihao Liu, Kang Chen, Weilin Liu, Gang Liu, Boxun Li, Jianlei Yang, Zhi Yang, Guohao Dai, Yu Wang

## Контекст Reinforcement learning (RL) является ключевым развитием в области искусственного интеллекта, включая широкие приложения в области объектного мышления, агентской модели и технологий embodied intelligence. Однако, существующие системы RL часто страдают от низкой эффективности использования оборудования и медленной скорости обучения. Эти проблемы возникают в силу того, что RL-среды являются высоко-гибридными и динамичными, что приводит к неэффективному использованию ресурсов и сложностям в динамическом планировании. Эти ограничения ограничивают потенциал RL в более сложных и реалистичных сценариях. В этой работе мы рассматриваем эту проблему, предлагая RLinf, высокопроизводительную систему RL, основанную на нашем ключевом обнаружении, что главным препятствием для эффективности является формализация RL-процесса и его преобразование. ## Метод RLinf вводит новый подход к разработке RL-систем под названием macro-to-micro flow transformation (M2Flow). Этот подход разбивает RL-процессы на легко-модулируемые части, которые последуют в композиции оптимизированных рабочих процессов. Для реализации этой трансформации, мы вводим контекст-свитчинг и эластичную операцию пайплайнинга, поддерживаемые профилирующим планированием. Эта структура позволяет RLinf адаптироваться к различным типам задач, от принципиального RL до embodied RL. Кроме того, RLinf использует адаптивную систему коммуникации, чтобы обеспечить высокую скорость обмена данными между различными узлами в системе. ## Результаты Мы проводили подробные эксперименты на различных RL-задачах, включая объектное мышление и embodied RL. Использовались данные из различных наборов для проверки скорости обучения и эффективности использования ресурсов. Результаты показывают, что RLinf существенно превосходит состояние технологий, достигая скорости обучения от 1.1 раз до 2.13 раз выше, независимо от размера и сложности задачи. Эти результаты были получены благодаря оптимальной организации рабочего процесса, сжатым пайплайном и высоко-эффективной системе коммуникации. ## Значимость RLinf открывает новые возможности для применения RL в широких областях, включая embodied intelligence, развитие agentic систем, и развитие новых технологий для обработки больших данных. Он обеспечивает высокую эффективность и гибкость, что позволяет использовать RL в более сложных задачах, таких как реалистичные embodied tasks. Мы видим, что RLinf может повлиять на развитие технологий, обеспечивая более эффективное использование ресурсов и повышение скорости обучения, что может привести к новым возможностям в области общего искусственного интеллекта. ## Выводы Мы представили RLinf, высокоп

Annotation:

Reinforcement learning (RL) has demonstrated immense potential in advancing artificial general intelligence, agentic intelligence, and embodied intelligence. However, the inherent heterogeneity and dynamicity of RL workflows often lead to low hardware utilization and slow training on existing systems. In this paper, we present RLinf, a high-performance RL training system based on our key observation that the major roadblock to efficient RL training lies in system flexibility. To maximize flexibi...

ID: 2509.15965v1 cs.LG, cs.AI, cs.DC

arXiv PDF

📄 DPQuant: Efficient and Differentially-Private Model Training via Dynamic Quantization Scheduling

2025-09-05

Авторы:

Yubo Gao, Renbo Tu, Gennady Pekhimenko, Nandita Vijaykumar

## Контекст Differentially-Private Stochastic Gradient Descent (DP-SGD) является важной методикой для защиты конфиденциальности при обучении нейронных сетей с использованием чувствительных данных. Однако обучение с помощью DP-SGD чревато высокими затратами на вычисления и энергией. Для устранения этой проблемы широко распространенным решением является использование низкопрецизионного представления моделей, включая веса и активации. Эта техника, называемая quantization, позволяет значительно сократить время обучения, энергопотребление и затраты. Однако, при обучении DP-SGD, внедрение шума, характерное для этого подхода, сильно усиливает вариацию, вызванную низкопрецизионным представлением, что приводит к более существенной ухудшению точности модели. Мы рассматриваем эту проблему, а также предлагаем решение, которое позволяет сочетать эффективность и чувствительность к приватности в обучении моделей. ## Метод Мы предлагаем QPQuant, динамическую систему адаптивной quantization-схемы, которая адаптирует состав выбранных для quantization слоев на каждой эпохе обучения. Наш подход основывается на двух основных компонентах: (i) вероятностная семуляция, позволяющая каждой эпохе поворачивать, какие слои будут quantized, и (ii) loss-aware layer prioritization, которая использует применение частично дифференциальной конфиденциальности (DP) для оценки сенситивности весов каждого слоя. Оценка сенситивности потребляет незначительную часть общего бюджета конфиденциальности, сохраняя при этом гарантии защиты приватности. Эта стратегия позволяет адаптироваться к характеристикам модели и данных, сводя к минимуму ущерб от quantization к модели. ## Результаты Мы проводим эксперименты с QPQuant на топовых моделях, таких как ResNet18, ResNet50, и DenseNet121, используя наборы данных ImageNet, CIFAR-10 и CIFAR-100. Наши результаты показывают, что QPQuant обеспечивает более высокую точность по сравнению с статическими схемами quantization, сохраняя при этом высокую эффективность. Мы получаем до 2.21x увеличения пропускной способности на низкопрецизионном железе, с менее чем 2% ухудшением точности на валидации. Эти результаты демонстрируют значительные преимущества QPQuant перед существующими методами, которые не так эффективно решают проблему влияния quantization на DP-SGD. ## Значимость Наш подход имеет широкие применения в области защиты приватности при обучении моделей, особенно в сценариях, где высокая точность и эффективность критичны. Это включает такие области, как здравоохранение, финансы и юридические системы, где обеспечение конфиденциальности и высокая производительность являются ключевыми. Эффективность QPQuant позволяет сократить затраты на обучение и

Annotation:

Differentially-Private SGD (DP-SGD) is a powerful technique to protect user privacy when using sensitive data to train neural networks. During training, converting model weights and activations into low-precision formats, i.e., quantization, can drastically reduce training times, energy consumption, and cost, and is thus a widely used technique. In this work, we demonstrate that quantization causes significantly higher accuracy degradation in DP-SGD compared to regular SGD. We observe that this ...

ID: 2509.03472v1 cs.LG, cs.AI, cs.DC

arXiv PDF

Показано 21 - 30 из 33 записей