Small LLMs with Expert Blocks Are Good Enough for Hyperparamter Tuning

2509.15561v1 cs.LG, cs.CL 2025-09-23

Авторы:

Om Naphade, Saksham Bansal, Parikshit Pareek

Резюме на русском

#### Контекст Hyper-parameter Tuning (HPT) является важной стадией в машинном обучении, но становится все более отдаленной и вычислительно трудоемкой при использовании больших моделей. Модели типа Large Language Models (LLMs) показали свои преимущества в этой области, однако большинство из них требуют моделей с параметрами, превышающими 100 миллиардов. Это приводит к сложностям в реализации и ограничениям в применении. Мы предлагаем новую модель, основанную на Small LLMs, которая обеспечивает эффективность и доступность для Hyper-parameter Tuning. #### Метод Мы предлагаем Expert Block Framework для HPT с Small LLMs, в котором используется Trajectory Context Summarizer (TCS). TCS детерминированно преобразует необработанные траектории обучения в структурированные контексты, позволяя Small LLMs анализировать прогресс оптимизации с точностью, близкой к большим моделям. В нашем эксперименте использовались два внутренних моделирования с 14 и 32 миллиардами параметров. Мы проверили нашу модель на шести различных задачах и протестировали ее с бюджетом 10 запусков. #### Результаты Наши эксперименты показали, что модель TCS-enabled HPT достигла среднего результата, отличающегося от GPT-4 не более чем на ~0.9 процентных единиц по всем задачам. Это указывает на очень высокую точность и надежность нашего подхода, даже при использовании моделей с меньшим числом параметров. Мы протестировали нашу модель на различных задачах ML, включая задачи классификации и регрессии, и получили последовательные успехи. #### Значимость Наш подход открывает новые возможности для эффективного HPT, особенно в ситуациях, где невозможно использовать большие модели из-за ресурсов или времени. Например, он может применяться в edge computing, IoT и облачных сервисах, где производительность и экономия ресурсов критичны. Мы также отмечаем, что наши результаты могут быть применены для гибридных моделей и многоуровневой оптимизации. #### Выводы Мы показали, что Small LLMs с Expert Blocks могут эффективно использоваться для HPT, даже при ограниченных ресурсах. Наша модель показала себя как эффективная альтернатива для крупных моделей в HPT. Мы будем продолжать исследовать возможности TCS для других задач машинного обучения и рассмотреть возможность расширения фреймворка для более сложных задач.

Abstract

Hyper-parameter Tuning (HPT) is a necessary step in machine learning (ML) pipelines but becomes computationally expensive and opaque with larger models. Recently, Large Language Models (LLMs) have been explored for HPT, yet most rely on models exceeding 100 billion parameters. We propose an Expert Block Framework for HPT using Small LLMs. At its core is the Trajectory Context Summarizer (TCS), a deterministic block that transforms raw training trajectories into structured context, enabling small LLMs to analyze optimization progress with reliability comparable to larger models. Using two locally-run LLMs (phi4:reasoning14B and qwen2.5-coder:32B) and a 10-trial budget, our TCS-enabled HPT pipeline achieves average performance within ~0.9 percentage points of GPT-4 across six diverse tasks.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Small LLMs with Expert Blocks Are Good Enough for Hyperparamter Tuning

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Natural Language Actor-Critic: Scalable Off-Policy Learning in Language Space

Towards Active Synthetic Data Generation for Finetuning Language Models

AlignSAE: Concept-Aligned Sparse Autoencoders

Measuring What LLMs Think They Do: SHAP Faithfulness and Deployability on Financ...

BanglaSentNet: An Explainable Hybrid Deep Learning Framework for Multi-Aspect Se...

Навигация