DynamixSFT: Dynamic Mixture Optimization of Instruction Tuning Collections
2508.12116v1
cs.LG, cs.AI, cs.CL
2025-08-19
Авторы:
Haebin Shin, Lei Ji, Xiao Liu, Zhiwei Yu, Qi Chen, Yeyun Gong
Резюме на русском
## Контекст
В посттренировочном этапе модели естественного языка (NLP) становится важной задачей управления и оптимизацией смеси инструкций, используемых для оптимизации моделей с помощью многозначных данных. Эта задача возникает из-за того, что всё больше инструкционных данных появляется в ходе тренировки моделей. Эти данные могут быть несовместимыми, несогласованными, или потреблять различные ресурсы, что приводит к вызовам в эффективности процесса обучения. В этой статье, мы проводим исследование вопроса оптимального управления и выбора смеси инструкционных данных в ходе обучения моделей, чтобы улучшить их качество и эффективность.
## Метод
Мы представляем DynamixSFT, динамическую и автоматизированную методику оптимизации смеси инструкционных данных. Метод основывается на формулировке задачи как многорукий бандит (multi-armed bandit), что позволяет сбалансированно распределить ресурсы между различными ресурсами. Мы вводим Prior-scaled Boltzmann Exploration, чтобы гарантировать, что новые выборки сохраняют природные пропорции в исходном наборе данных, чтобы сохранить разнообразие и покрытие. Для оценки вклада каждого ресурса в улучшение модели мы используем легковесную модель 1-Step Look-ahead Reward, которая принимает во внимание вклад каждого набора в процесс обучения.
## Результаты
Мы проводим эксперименты с DynamixSFT, используя набор данных Tulu-v2-mixture, состоящий из 16 инструкционных наборов. Мы сравниваем результаты с другими методами, такими как uniform sampling и vanilla Boltzmann Exploration. Наши результаты показывают, что DynamixSFT улучшает качество модели на до 2.2% в 10 разных бенчмарковых задачах. Мы также предоставляем анализ и визуализации, подробно описывающие динамику нашего метода и влияние каждого компонента на полученные результаты.
## Значимость
Метод DynamixSFT может использоваться в различных областях, где требуется высокая эффективность обучения моделей со сложными инструкциями, например в системах распределенного обучения, в области генеративных моделей и в области оптимизации моделей для конкретных задач. Наш метод демонстрирует преимущества при использовании динамического управления смесью данных, что может привести к повышению качества моделей без значительных изменений архитектуры. Это открывает новые возможности для улучшения процесса обучения в целом.
## Выводы
Мы представили DynamixSFT как мощный метод для оптимизации смеси инструкционных данных в процессе обучения моделей. Наши результаты показывают, что данный подход может значительно улучшить качество моделей без значительного увеличения ресурсов. В будущем, мы планируем расширить применение DynamixSFT на другие типы моделей и данных, а также улучшить его адаптацию в ситуациях с б
Abstract
As numerous instruction-tuning datasets continue to emerge during the
post-training stage, dynamically balancing and optimizing their mixtures has
become a critical challenge. To address this, we propose DynamixSFT, a dynamic
and automated method for instruction-tuning dataset mixture optimization. We
formulate the problem as a multi-armed bandit setup and introduce a
Prior-scaled Boltzmann Exploration that softly anchors the updated sampling
distribution to the original dataset proportions, thereby preserving the
inherent diversity and coverage of the collection. Sampling probabilities are
updated using a lightweight 1-Step Look-ahead Reward, reflecting how much the
dataset contributes to improving the model's performance at its current state.
When applied to the Tulu-v2-mixture collection comprising 16 instruction-tuning
datasets, DynamixSFT achieves up to a 2.2% performance improvement across 10
benchmarks. Furthermore, we provide a comprehensive analysis and visualizations
to offer deeper insights into the adaptive dynamics of our method.
Ссылки и действия
Дополнительные ресурсы: