FedUHD: Unsupervised Federated Learning using Hyperdimensional Computing
2508.12021v1
cs.LG, cs.AR, cs.DC
2025-08-19
Авторы:
You Hak Lee, Xiaofan Yu, Quanling Zhao, Flavio Ponzina, Tajana Rosing
Резюме на русском
-----------------------------------------------------------------------
## Контекст
-----------------------------------------------------------------------
Unsupervised federated learning (UFL) является популярным подходом к обучению моделей машинного обучения в распределенной среде без необходимости тщательной индивидуальной метковки данных. Он обеспечивает конфиденциальность данных и устраняет необходимость централизованного управления. Однако UFL сталкивается с рядом проблем в реальных приложениях. В частности:
1. **Неравномерность данных (non-iid)**: распределение данных на различных устройствах может быть непредсказуемым, что влечет за собой снижение точности модели.
2. **Тяжелые вычисления и высокие затраты на связь**: клиентские устройства часто имеют ограниченные ресурсы, что усложняет обработку и передачу данных.
3. **Уязвимость к шумам в связи**: передача данных по сети часто подвержена помехам, что может повлиять на качество обучения.
Предыдущие подходы к UFL основывались на нейронных сетях (NN), которые требуют значительных вычислительных и сетевых ресурсов. Новые подходы, основывающиеся на альтернативных представлениях данных, могут помочь уменьшить эти проблемы.
В данной работе предлагается FedUHD — первый фреймворк UFL, основанный на Hyperdimensional Computing (HDC), который предлагает легкие операции обучения и инференса, меньший размер модели и высокую устойчивость к шумам в связи.
-----------------------------------------------------------------------
## Метод
-----------------------------------------------------------------------
FedUHD основывается на идеях Hyperdimensional Computing (HDC), широко известного своей эффективностью и устойчивость к шумам. Основные технические решения включают:
1. **Клиентская сторона**: использование метода кластеризации kNN для удаления вредных выбросов из неравномерно распределенных данных на клиентских устройствах.
2. **Серверная сторона**: введение взвешенного метода свертки (weighted HDC aggregation) для выравнивания распределения данных между клиентами.
FedUHD использует крупномасштабные представления данных, обеспечивая лучшую точность и устойчивость, чем традиционные NN-подходы.
-----------------------------------------------------------------------
## Результаты
-----------------------------------------------------------------------
Эксперименты проводились на различных наборах данных, включая CIFAR-10 и FMNIST. Результаты показали следующее:
- **Эффективность обучения**: FedUHD достигает до 173.6x ускорения и 612.7x энергоэффективности в сравнении с NN-подходами.
- **Сокращение затрат на связь**: требуется до 271x меньше ресурсов для передачи данных.
- **Устойчивость к шумам**: FedUHD показал существенную устойчивость к различным типам помех в связи.
- **Точность**: наблюдается увеличение точности обучения до 15.5% в сравнении с состоянием искусства.
-----------------------------------------------------------------------
## Значимость
-----------------------------------------------------------------------
FedUHD может быть применен в следующих областях:
- **Медицина**: обработка данных без централизованного обработчика.
- **Инт
Abstract
Unsupervised federated learning (UFL) has gained attention as a
privacy-preserving, decentralized machine learning approach that eliminates the
need for labor-intensive data labeling. However, UFL faces several challenges
in practical applications: (1) non-independent and identically distributed
(non-iid) data distribution across devices, (2) expensive computational and
communication costs at the edge, and (3) vulnerability to communication noise.
Previous UFL approaches have relied on deep neural networks (NN), which
introduce substantial overhead in both computation and communication. In this
paper, we propose FedUHD, the first UFL framework based on Hyperdimensional
Computing (HDC). HDC is a brain-inspired computing scheme with lightweight
training and inference operations, much smaller model size, and robustness to
communication noise. FedUHD introduces two novel HDC-based designs to improve
UFL performance. On the client side, a kNN-based cluster hypervector removal
method addresses non-iid data samples by eliminating detrimental outliers. On
the server side, a weighted HDC aggregation technique balances the non-iid data
distribution across clients. Our experiments demonstrate that FedUHD achieves
up to 173.6x and 612.7x better speedup and energy efficiency, respectively, in
training, up to 271x lower communication cost, and 15.50% higher accuracy on
average across diverse settings, along with superior robustness to various
types of noise compared to state-of-the-art NN-based UFL approaches.
Ссылки и действия
Дополнительные ресурсы: