Evolution Strategies at Scale: LLM Fine-Tuning Beyond Reinforcement Learning

2509.24372v1 cs.LG, cs.AI, cs.NE 2025-10-01
Авторы:

Xin Qiu, Yulu Gan, Conor F. Hayes, Qiyao Liang, Elliot Meyerson, Babak Hodjat, Risto Miikkulainen

Резюме на русском

#### Контекст Fine-tuning предварительно обученных больших языковых моделей (LLM) для задач предсказания сложности и текста является ключевым элементом в процессе развертывания AI. Методы Машинного Обучения (ML), такие как Реинфорсмент Лёрнинг (RL), играли значительную роль в развитии современных LLMs. Однако, методы Эволюционных Эстиматоров (ES), которые ранее продемонстрировали свою эффективность в тюнинге моделей с миллионами параметров, были забыты в свете сложности их применения к более крупным моделям. #### Метод Мы предлагаем подход, основанный на Эволюционных Эстиматорах, для тюнинга полного набора параметров больших языковых моделей. Наша методология включает в себя разработку эффективных стратегий обновления для эвристики генетического алгоритма, а также использование многоуровневого улучшения для точного тюнинга модели. Мы использовали многоцелевую оптимизацию для минимизации потерь и улучшения качества предсказаний в разных сценариях. #### Результаты Мы провели эксперименты с двумя LLMs размером 1,3 млрд параметров и показали, что наш подход превосходит RL в нескольких аспектах. Мы использовали огромные данные, включая параллельные вычисления на 128 V100 GPU, и получили результаты, показавшие, что наш подход не только эффективней, но и менее уязвим к проблемам, таким как "reward hacking". #### Значимость Наш подход открывает новые возможности в области fine-tuning LLMs, идет дальше RL, и демонстрирует преимущества в области эффективности, устойчивости и применения к более крупным моделям. Помимо этого, этот подход может быть применен в различных областях, включая синтез текста, генерацию кода и трансляцию языков. Мы предоставили наш код для дальнейшего исследования и реализации. #### Выводы Мы успешно расширили границы методов тюнинга LLMs, показав, что Эволюционные Эстиматоры могут эффективно работать с моделями на миллиарды параметров. Наше исследование открывает новые инсайты в области AI и может стать основополагающим для будущих исследований в этой области.

Abstract

Fine-tuning pre-trained large language models (LLMs) for down-stream tasks is a critical step in the AI deployment pipeline. Reinforcement learning (RL) is arguably the most prominent fine-tuning method, contributing to the birth of many state-of-the-art LLMs. In contrast, evolution strategies (ES), which once showed comparable performance to RL on models with a few million parameters, was neglected due to the pessimistic perception of its scalability to larger models. In this work, we report the first successful attempt to scale up ES for fine-tuning the full parameters of LLMs, showing the surprising fact that ES can search efficiently over billions of parameters and outperform existing RL fine-tuning methods in multiple respects, including sample efficiency, tolerance to long-horizon rewards, robustness to different base LLMs, less tendency to reward hacking, and more stable performance across runs. It therefore serves as a basis to unlock a new direction in LLM fine-tuning beyond what current RL techniques provide. The source codes are provided at: https://github.com/VsonicV/es-fine-tuning-paper.

Ссылки и действия