FedUHD: Unsupervised Federated Learning using Hyperdimensional Computing

2508.12021v1 cs.LG, cs.AR, cs.DC 2025-08-19

Авторы:

You Hak Lee, Xiaofan Yu, Quanling Zhao, Flavio Ponzina, Tajana Rosing

Резюме на русском

----------------------------------------------------------------------- ## Контекст ----------------------------------------------------------------------- Unsupervised federated learning (UFL) является популярным подходом к обучению моделей машинного обучения в распределенной среде без необходимости тщательной индивидуальной метковки данных. Он обеспечивает конфиденциальность данных и устраняет необходимость централизованного управления. Однако UFL сталкивается с рядом проблем в реальных приложениях. В частности: 1. **Неравномерность данных (non-iid)**: распределение данных на различных устройствах может быть непредсказуемым, что влечет за собой снижение точности модели. 2. **Тяжелые вычисления и высокие затраты на связь**: клиентские устройства часто имеют ограниченные ресурсы, что усложняет обработку и передачу данных. 3. **Уязвимость к шумам в связи**: передача данных по сети часто подвержена помехам, что может повлиять на качество обучения. Предыдущие подходы к UFL основывались на нейронных сетях (NN), которые требуют значительных вычислительных и сетевых ресурсов. Новые подходы, основывающиеся на альтернативных представлениях данных, могут помочь уменьшить эти проблемы. В данной работе предлагается FedUHD — первый фреймворк UFL, основанный на Hyperdimensional Computing (HDC), который предлагает легкие операции обучения и инференса, меньший размер модели и высокую устойчивость к шумам в связи. ----------------------------------------------------------------------- ## Метод ----------------------------------------------------------------------- FedUHD основывается на идеях Hyperdimensional Computing (HDC), широко известного своей эффективностью и устойчивость к шумам. Основные технические решения включают: 1. **Клиентская сторона**: использование метода кластеризации kNN для удаления вредных выбросов из неравномерно распределенных данных на клиентских устройствах. 2. **Серверная сторона**: введение взвешенного метода свертки (weighted HDC aggregation) для выравнивания распределения данных между клиентами. FedUHD использует крупномасштабные представления данных, обеспечивая лучшую точность и устойчивость, чем традиционные NN-подходы. ----------------------------------------------------------------------- ## Результаты ----------------------------------------------------------------------- Эксперименты проводились на различных наборах данных, включая CIFAR-10 и FMNIST. Результаты показали следующее: - **Эффективность обучения**: FedUHD достигает до 173.6x ускорения и 612.7x энергоэффективности в сравнении с NN-подходами. - **Сокращение затрат на связь**: требуется до 271x меньше ресурсов для передачи данных. - **Устойчивость к шумам**: FedUHD показал существенную устойчивость к различным типам помех в связи. - **Точность**: наблюдается увеличение точности обучения до 15.5% в сравнении с состоянием искусства. ----------------------------------------------------------------------- ## Значимость ----------------------------------------------------------------------- FedUHD может быть применен в следующих областях: - **Медицина**: обработка данных без централизованного обработчика. - **Инт

Abstract

Unsupervised federated learning (UFL) has gained attention as a privacy-preserving, decentralized machine learning approach that eliminates the need for labor-intensive data labeling. However, UFL faces several challenges in practical applications: (1) non-independent and identically distributed (non-iid) data distribution across devices, (2) expensive computational and communication costs at the edge, and (3) vulnerability to communication noise. Previous UFL approaches have relied on deep neural networks (NN), which introduce substantial overhead in both computation and communication. In this paper, we propose FedUHD, the first UFL framework based on Hyperdimensional Computing (HDC). HDC is a brain-inspired computing scheme with lightweight training and inference operations, much smaller model size, and robustness to communication noise. FedUHD introduces two novel HDC-based designs to improve UFL performance. On the client side, a kNN-based cluster hypervector removal method addresses non-iid data samples by eliminating detrimental outliers. On the server side, a weighted HDC aggregation technique balances the non-iid data distribution across clients. Our experiments demonstrate that FedUHD achieves up to 173.6x and 612.7x better speedup and energy efficiency, respectively, in training, up to 271x lower communication cost, and 15.50% higher accuracy on average across diverse settings, along with superior robustness to various types of noise compared to state-of-the-art NN-based UFL approaches.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Резюме на русском

Abstract

Ссылки и действия

Навигация