Federated Fine-Tuning of Sparsely-Activated Large Language Models on Resource-Constrained Devices

2508.19078v1 cs.DC, cs.AI 2025-08-29

Авторы:

Fahao Chen, Jie Wan, Peng Li, Zhou Su, Dongxiao Yu

Резюме на русском

--------------------------------------------------------------------------- ## Контекст Federated fine-tuning (FFT) является ключевым подходом для адаптации больших языковых моделей (LLMs) к конкретным задачам и данным на клиентских устройстрах. Однако, в случае спarsely-activated MoE-based LLMs, это обеспечивает значительные вызовы, такие как высокие требования к вычислительным ресурсам и конфиденциальность данных клиентов. На данный момент, существующие методы, такие как quantization, computation offloading и expert pruning, не могут достичь оптимальных результатов из-за непрактичных системных предположений и невнимательного отношения к характеристикам MoE. В этой работе мы рассматриваем эту проблему, сформулируем цельское федеративное окружение для постоянного оптимизации моделей с минимальными вычислительными затратами и максимальным ускорением достижения достоверных результатов. --------------------------------------------------------------------------- ## Метод Мы предлагаем FLUX, систему, которая обеспечивает эффективное федеративное окружение для файн-тюнинга MoE-based LLMs на устройствах с ограниченными вычислительными ресурсами, таких как современные GPU. FLUX включает три основных инновации: (1) **Quantization-based local profiling**, позволяющий оценивать активации экспертов с минимальными вычислительными затратами; (2) **Adaptive layer-aware expert merging**, способствующий снижению потребления ресурсов без потери точности; (3) **Dynamic expert role assignment**, использующий стратегию exploration-exploitation для балансировки процесса изучения и применения. Эти технические решения позволяют FLUX повысить эффективность и сократить время достижения достоверных результатов на 4.75X в сравнении с соревнованиями. --------------------------------------------------------------------------- ## Результаты Для оценки FLUX, мы проводили ряд экспериментов на двух моделях: LLaMA-MoE и DeepSeek-MoE. Использовались множество бенчмарк-датасеты, включающие различные задачи NLU и NLG. Результаты показывают, что FLUX ускоряет достижение достоверных результатов на 4.75X в сравнении с текущими методами, сохраняя очень высокую точность. Особую эффективность FLUX продемонстрировали на ресурсно-ограниченных устройствах, где другие методы показывали значительные просадки в производительности. --------------------------------------------------------------------------- ## Значимость FLUX открывает новые возможности для применения больших языковых моделей в реальном мире, особенно в сценариях с ограниченными ресурсами. Он позволяет значительно сократить время достижения работоспособной модели, что ключево для быстрого развертывания в сценариях, таких как мобильные приложения и IoT. Благодаря своим инновационным техническим решениям, FLUX обеспечивает значительное ускорение времени обучения и минимальные потери точности, делая его привлекательным решением для промышленного применения. --------------------------------------------------------------------------- ## Выводы FLUX достигает существенных улучшений в скорости и эффективности FFT для MoE-based LLMs. Наши и

Abstract

Federated fine-tuning of Mixture-of-Experts (MoE)-based large language models (LLMs) is challenging due to their massive computational requirements and the resource constraints of participants. Existing working attempts to fill this gap through model quantization, computation offloading, or expert pruning. However, they cannot achieve desired performance due to impractical system assumptions and a lack of consideration for MoE-specific characteristics. In this paper, we propose FLUX, a system designed to enable federated fine-tuning of MoE-based LLMs across participants with constrained computing resources (e.g., consumer-grade GPUs), aiming to minimize time-to-accuracy. FLUX introduces three key innovations: (1) quantization-based local profiling to estimate expert activation with minimal overhead, (2) adaptive layer-aware expert merging to reduce resource consumption while preserving accuracy, and (3) dynamic expert role assignment using an exploration-exploitation strategy to balance tuning and non-tuning experts. Extensive experiments on LLaMA-MoE and DeepSeek-MoE with multiple benchmark datasets demonstrate that FLUX significantly outperforms existing methods, achieving up to 4.75X speedup in time-to-accuracy.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Federated Fine-Tuning of Sparsely-Activated Large Language Models on Resource-Constrained Devices

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Delta Sum Learning: an approach for fast and global convergence in Gossip Learni...

SparOA: Sparse and Operator-aware Hybrid Scheduling for Edge DNN Inference

Beluga: A CXL-Based Memory Architecture for Scalable and Efficient LLM KVCache M...

Fast LLM Post-training via Decoupled and Best-of-N Speculation

Fast LLM Post-training via Decoupled and Best-of-N Speculation

Навигация