Federated Online Learning for Heterogeneous Multisource Streaming Data
2508.06652v1
stat.ML, cs.LG
2025-08-13
Авторы:
Jingmao Li, Yuanxing Chen, Shuangge Ma, Kuangnan Fang
Резюме на русском
## Контекст
Область исследования федеративного обучения подразумевает распределенное анализирование данных из нескольких источников с учетом принципов конфиденциальности. Данная область набирает важность, так как современные реалии требуют эффективных методов для обработки и анализа данных, не приведя к утечке информации. Необходимость решения данной проблемы вызвана возрастающим количеством данных из различных источников, которые должны обрабатываться в режиме реального времени с сохранением уровня безопасности. Традиционные федеративные методы применялись в статических данных, но в реальных системах данные поступают потоком, что требует разработки новых способов обработки потоковых данных, которые могут адаптироваться к изменению структуры и характера данных. Мотивацией для этого исследования является необходимость разработки методов, которые могут эффективно обрабатывать потоковые данные, сохраняя при этом принципы конфиденциальности и уменьшая требования к вычислительным ресурсам.
## Метод
В данной работе предлагается Federated Online Learning (FOL) метод для распределенного анализа потоковых данных из нескольких источников. Метод основывается на создании персонализированных моделей для каждого источника данных, чтобы учесть их индивидуальные особенности. Для улучшения результатов используется "subgroup" приближение, которое позволяет корректно отразить схожие характеристики в разных источниках. Метод использует ресурс-эффективные методы обучения, такие как penalized renewable estimation и простой proximal gradient descent. Одним из основных принципов является то, что данные не пересылаются между источниками, что обеспечивает высокий уровень конфиденциальности. Также метод требует только сводных статистических данных из прошлых батчей для обновления модели, что значительно сокращает требования к памяти. Эта архитектура позволяет объединить преимущества федеративного и онлайн-обучения.
## Результаты
В ходе экспериментов были проведены симуляции и использованы данные из финансового сегмента и логов веб-запросов. Результаты показали, что FOL-метод эффективен в решении задач классификации и регрессии в реальных ситуациях. Он показал лучшую точность и скорость обучения по сравнению с существующими методами. Метод также продемонстрировал хорошую адаптивность к изменениям данных и способность обрабатывать высокомерностные данные. Данные результаты подтверждают, что FOL может эффективно адаптироваться к потоковым данным, уменьшая затраты на вычисления и обеспечивая высокую точность.
## Значимость
Предлагаемый метод может быть применен в различных областях, таких как финансовый анализ, мониторинг трафи
Abstract
Federated learning has emerged as an essential paradigm for distributed
multi-source data analysis under privacy concerns. Most existing federated
learning methods focus on the ``static" datasets. However, in many real-world
applications, data arrive continuously over time, forming streaming datasets.
This introduces additional challenges for data storage and algorithm design,
particularly under high-dimensional settings. In this paper, we propose a
federated online learning (FOL) method for distributed multi-source streaming
data analysis. To account for heterogeneity, a personalized model is
constructed for each data source, and a novel ``subgroup" assumption is
employed to capture potential similarities, thereby enhancing model
performance. We adopt the penalized renewable estimation method and the
efficient proximal gradient descent for model training. The proposed method
aligns with both federated and online learning frameworks: raw data are not
exchanged among sources, ensuring data privacy, and only summary statistics of
previous data batches are required for model updates, significantly reducing
storage demands. Theoretically, we establish the consistency properties for
model estimation, variable selection, and subgroup structure recovery,
demonstrating optimal statistical efficiency. Simulations illustrate the
effectiveness of the proposed method. Furthermore, when applied to the
financial lending data and the web log data, the proposed method also exhibits
advantageous prediction performance. Results of the analysis also provide some
practical insights.
Ссылки и действия
Дополнительные ресурсы: