Evolution Strategies at Scale: LLM Fine-Tuning Beyond Reinforcement Learning
2509.24372v1
cs.LG, cs.AI, cs.NE
2025-10-01
Авторы:
Xin Qiu, Yulu Gan, Conor F. Hayes, Qiyao Liang, Elliot Meyerson, Babak Hodjat, Risto Miikkulainen
Резюме на русском
#### Контекст
Fine-tuning предварительно обученных больших языковых моделей (LLM) для задач предсказания сложности и текста является ключевым элементом в процессе развертывания AI. Методы Машинного Обучения (ML), такие как Реинфорсмент Лёрнинг (RL), играли значительную роль в развитии современных LLMs. Однако, методы Эволюционных Эстиматоров (ES), которые ранее продемонстрировали свою эффективность в тюнинге моделей с миллионами параметров, были забыты в свете сложности их применения к более крупным моделям.
#### Метод
Мы предлагаем подход, основанный на Эволюционных Эстиматорах, для тюнинга полного набора параметров больших языковых моделей. Наша методология включает в себя разработку эффективных стратегий обновления для эвристики генетического алгоритма, а также использование многоуровневого улучшения для точного тюнинга модели. Мы использовали многоцелевую оптимизацию для минимизации потерь и улучшения качества предсказаний в разных сценариях.
#### Результаты
Мы провели эксперименты с двумя LLMs размером 1,3 млрд параметров и показали, что наш подход превосходит RL в нескольких аспектах. Мы использовали огромные данные, включая параллельные вычисления на 128 V100 GPU, и получили результаты, показавшие, что наш подход не только эффективней, но и менее уязвим к проблемам, таким как "reward hacking".
#### Значимость
Наш подход открывает новые возможности в области fine-tuning LLMs, идет дальше RL, и демонстрирует преимущества в области эффективности, устойчивости и применения к более крупным моделям. Помимо этого, этот подход может быть применен в различных областях, включая синтез текста, генерацию кода и трансляцию языков. Мы предоставили наш код для дальнейшего исследования и реализации.
#### Выводы
Мы успешно расширили границы методов тюнинга LLMs, показав, что Эволюционные Эстиматоры могут эффективно работать с моделями на миллиарды параметров. Наше исследование открывает новые инсайты в области AI и может стать основополагающим для будущих исследований в этой области.
Abstract
Fine-tuning pre-trained large language models (LLMs) for down-stream tasks is
a critical step in the AI deployment pipeline. Reinforcement learning (RL) is
arguably the most prominent fine-tuning method, contributing to the birth of
many state-of-the-art LLMs. In contrast, evolution strategies (ES), which once
showed comparable performance to RL on models with a few million parameters,
was neglected due to the pessimistic perception of its scalability to larger
models. In this work, we report the first successful attempt to scale up ES for
fine-tuning the full parameters of LLMs, showing the surprising fact that ES
can search efficiently over billions of parameters and outperform existing RL
fine-tuning methods in multiple respects, including sample efficiency,
tolerance to long-horizon rewards, robustness to different base LLMs, less
tendency to reward hacking, and more stable performance across runs. It
therefore serves as a basis to unlock a new direction in LLM fine-tuning beyond
what current RL techniques provide. The source codes are provided at:
https://github.com/VsonicV/es-fine-tuning-paper.
Ссылки и действия
Дополнительные ресурсы: