EOE: Evolutionary Optimization of Experts for Training Language Models

2509.24436v1 cs.LG, cs.AI, cs.NE 2025-10-01

Авторы:

Yingshi Chen

Резюме на русском

## Контекст Одна из ключевых задач в области машинного обучения является обучение больших языковых моделей (LLM). Несмотря на их высокую точность и эффективность, эти модели требуют огромных ресурсов для обучения и инференса, что ограничивает их развертывание в устройствах с ограниченными ресурсами. Таким образом, существует необходимость в разработке методов, позволяющих сократить размер моделей без существенного ухудшения их качества. В этой статье предлагается фреймворк, основанный на эволюционной оптимизации, для эффективного обучения таких моделей. ## Метод Фреймворк предлагает разбить модель на несколько экземпляров (экспертов), которые имеют одинаковую архитектуру, но разные веса. На каждом шаге обучения обучается только один эксперт (sub-network). После классического обучения с помощью AdamW, веса экспертов модифицируются с помощью эволюционных операторов: скрещивания, мутации и оптимизации частичного селектора (PSO). Эти операторы позволяют текущему эксперту "унаследовать" знания лучшего эксперта, что ускоряет уменьшение потерь. Наконец, только веса лучшего эксперта сохраняются, что приводит к значительному сокращению размера модели. ## Результаты Эксперименты показали, что лучший эксперт показывает почти одинаковую точность, что и полная модель. Это существенно сокращает размер модели для инференса. Благодаря тому, что в каждом шаге обучения обучается только один эксперт, процесс требует меньшего объема памяти и обеспечивает более высокую пропускную способность. Таким образом, пропускная способность может увеличиваться на более чем десять раз по сравнению с необходимым для обучения полной модели. ## Значимость Предложенный подход может быть применен в области машинного обучения для создания эффективных моделей, подходящих для развертывания на устройствах с ограниченными ресурсами, таких как edge computing или мобильные устройства. Основные преимущества заключаются в сокращении размера моделей, повышении пропускной способности и сохранении высокой точности. Это открывает новые возможности для развития AI-решений в различных секторах, таких как мобильные приложения, IoT и медицина. ## Выводы Предложенный эволюционный фреймворк для обучения языковых моделей демонстрирует перспективу сокращения размера моделей и увеличения пропускной способности без потери точности. Будущие исследования будут сконцентрированы на улучшении эволюционных операторов, оптимизации процесса скрещивания и динамическому выбору экспертов в процессе обучения.

Abstract

This paper presents an evolutionary framework for the training of large language models(LLM). The models are divided into several experts(sub-networks), which have the same structure but different parameter values. Only one expert is trained at each step. After the classical AdamW optimization, some evolutionary operators(crossover, PSO, and mutation) act on the tensor weights between the current expert and the best expert. So current expert would learn the experience of best expert. The direction of best expert would help current expert's loss decrease faster. Finally, only save the weight of the best expert. Experiments show that best expert would achieve nearly the same accuracy as the full model. This would greatly reduce the size of the model for inference. Since only one expert is trained at each step, the training needs much less memory and has much higher throughput. Experiments show that the throughput would accelerate more than ten times! Our source code is available. It's a pure c++/cu framework, which is suitable for easy deployment on PCs and edge computing devices.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

EOE: Evolutionary Optimization of Experts for Training Language Models

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

VS-Graph: Scalable and Efficient Graph Classification Using Hyperdimensional Com...

Pre-train to Gain: Robust Learning Without Clean Labels

Evolved SampleWeights for Bias Mitigation: Effectiveness Depends on Optimization...

DL101 Neural Network Outputs and Loss Functions

Multiscale Astrocyte Network Calcium Dynamics for Biologically Plausible Intelli...

Навигация