Small LLMs with Expert Blocks Are Good Enough for Hyperparamter Tuning
2509.15561v1
cs.LG, cs.CL
2025-09-23
Авторы:
Om Naphade, Saksham Bansal, Parikshit Pareek
Резюме на русском
#### Контекст
Hyper-parameter Tuning (HPT) является важной стадией в машинном обучении, но становится все более отдаленной и вычислительно трудоемкой при использовании больших моделей. Модели типа Large Language Models (LLMs) показали свои преимущества в этой области, однако большинство из них требуют моделей с параметрами, превышающими 100 миллиардов. Это приводит к сложностям в реализации и ограничениям в применении. Мы предлагаем новую модель, основанную на Small LLMs, которая обеспечивает эффективность и доступность для Hyper-parameter Tuning.
#### Метод
Мы предлагаем Expert Block Framework для HPT с Small LLMs, в котором используется Trajectory Context Summarizer (TCS). TCS детерминированно преобразует необработанные траектории обучения в структурированные контексты, позволяя Small LLMs анализировать прогресс оптимизации с точностью, близкой к большим моделям. В нашем эксперименте использовались два внутренних моделирования с 14 и 32 миллиардами параметров. Мы проверили нашу модель на шести различных задачах и протестировали ее с бюджетом 10 запусков.
#### Результаты
Наши эксперименты показали, что модель TCS-enabled HPT достигла среднего результата, отличающегося от GPT-4 не более чем на ~0.9 процентных единиц по всем задачам. Это указывает на очень высокую точность и надежность нашего подхода, даже при использовании моделей с меньшим числом параметров. Мы протестировали нашу модель на различных задачах ML, включая задачи классификации и регрессии, и получили последовательные успехи.
#### Значимость
Наш подход открывает новые возможности для эффективного HPT, особенно в ситуациях, где невозможно использовать большие модели из-за ресурсов или времени. Например, он может применяться в edge computing, IoT и облачных сервисах, где производительность и экономия ресурсов критичны. Мы также отмечаем, что наши результаты могут быть применены для гибридных моделей и многоуровневой оптимизации.
#### Выводы
Мы показали, что Small LLMs с Expert Blocks могут эффективно использоваться для HPT, даже при ограниченных ресурсах. Наша модель показала себя как эффективная альтернатива для крупных моделей в HPT. Мы будем продолжать исследовать возможности TCS для других задач машинного обучения и рассмотреть возможность расширения фреймворка для более сложных задач.
Abstract
Hyper-parameter Tuning (HPT) is a necessary step in machine learning (ML)
pipelines but becomes computationally expensive and opaque with larger models.
Recently, Large Language Models (LLMs) have been explored for HPT, yet most
rely on models exceeding 100 billion parameters. We propose an Expert Block
Framework for HPT using Small LLMs. At its core is the Trajectory Context
Summarizer (TCS), a deterministic block that transforms raw training
trajectories into structured context, enabling small LLMs to analyze
optimization progress with reliability comparable to larger models. Using two
locally-run LLMs (phi4:reasoning14B and qwen2.5-coder:32B) and a 10-trial
budget, our TCS-enabled HPT pipeline achieves average performance within ~0.9
percentage points of GPT-4 across six diverse tasks.
Ссылки и действия
Дополнительные ресурсы: