Surrogate Benchmarks for Model Merging Optimization

2509.02555v1 cs.LG, cs.AI, cs.NE 2025-09-05
Авторы:

Rio Akizuki, Yuya Kudo, Nozomu Yoshinari, Yoichi Hirose, Toshiyuki Nishimoto, Kento Uchida, Shinichi Shirakawa

Резюме на русском

## Контекст Моделирование интеллектуальных систем является ключевым направлением в развитии искусственного интеллекта. Одна из актуальных задач — объединение способностей нескольких моделей в единую мощную модель. Несмотря на потенциальные выгоды, этот процесс затрудняется двумя основными проблемами. Во-первых, многие существующие техники объединения моделей включают в себя гиперпараметры, которые оказывают существенное влияние на качество результатов. Во-вторых, оптимизация этих гиперпараметров требует больших вычислительных ресурсов, особенно при работе с тяжёлыми языковыми моделями (LLM). Для решения этих проблем необходимо разработать эффективные методы оптимизации гиперпараметров, чтобы повысить эффективность и снизить стоимость исследований в этой области. ## Метод Мы предлагаем систему суррогатных бенчмарков для оптимизации гиперпараметров объединения моделей. Методология основывается на сборе данных и разработке моделей предсказания. Два определённых пространства поиска (search spaces) содержат различные комбинации гиперпараметров, а данные для них собираются на основе результатов испытаний моделей. Эти данные используются для обучения суррогатной модели, которая может предсказывать качество результатов объединения моделей на основе выбранных гиперпараметров. Это позволяет эмулировать работу оптимизационных алгоритмов с минимальными вычислительными затратами. ## Результаты Наши суррогатные бенчмарки продемонстрировали высокую точность в предсказании качества результатов объединения моделей. Мы провели эксперименты с разными оптимизационными алгоритмами, используя наши модели для эмуляции их работы. Эксперименты показали, что суррогатные модели эффективно описывают зависимость между гиперпараметрами и качеством объединения. Кроме того, наши результаты позволяют сравнивать различные алгоритмы по их эффективности и экономичности, не требуя исполнения настоящих оптимизационных процессов. ## Значимость Наш подход открывает новые возможности для развития технологий объединения моделей. Он позволяет экономить вычислительные ресурсы и сократить время разработки над новыми оптимизационными методами. Бенчмарки могут применяться в разработке новых моделей, в анализе выполнения оптимизационных алгоритмов и в сравнительных исследованиях. Этот подход также имеет потенциал для распространения на другие задачи в области машинного обучения, где требуется эффективное оптимизационное решение. ## Выводы Мы разработали эффективные суррогатные бенчмарки для оптимизации гиперпараметров моделей объединения. Наши результаты подтверж

Abstract

Model merging techniques aim to integrate the abilities of multiple models into a single model. Most model merging techniques have hyperparameters, and their setting affects the performance of the merged model. Because several existing works show that tuning hyperparameters in model merging can enhance the merging outcome, developing hyperparameter optimization algorithms for model merging is a promising direction. However, its optimization process is computationally expensive, particularly in merging LLMs. In this work, we develop surrogate benchmarks for optimization of the merging hyperparameters to realize algorithm development and performance comparison at low cost. We define two search spaces and collect data samples to construct surrogate models to predict the performance of a merged model from a hyperparameter. We demonstrate that our benchmarks can predict the performance of merged models well and simulate optimization algorithm behaviors.

Ссылки и действия