DynamixSFT: Dynamic Mixture Optimization of Instruction Tuning Collections

2508.12116v1 cs.LG, cs.AI, cs.CL 2025-08-19

Авторы:

Haebin Shin, Lei Ji, Xiao Liu, Zhiwei Yu, Qi Chen, Yeyun Gong

Резюме на русском

## Контекст В посттренировочном этапе модели естественного языка (NLP) становится важной задачей управления и оптимизацией смеси инструкций, используемых для оптимизации моделей с помощью многозначных данных. Эта задача возникает из-за того, что всё больше инструкционных данных появляется в ходе тренировки моделей. Эти данные могут быть несовместимыми, несогласованными, или потреблять различные ресурсы, что приводит к вызовам в эффективности процесса обучения. В этой статье, мы проводим исследование вопроса оптимального управления и выбора смеси инструкционных данных в ходе обучения моделей, чтобы улучшить их качество и эффективность. ## Метод Мы представляем DynamixSFT, динамическую и автоматизированную методику оптимизации смеси инструкционных данных. Метод основывается на формулировке задачи как многорукий бандит (multi-armed bandit), что позволяет сбалансированно распределить ресурсы между различными ресурсами. Мы вводим Prior-scaled Boltzmann Exploration, чтобы гарантировать, что новые выборки сохраняют природные пропорции в исходном наборе данных, чтобы сохранить разнообразие и покрытие. Для оценки вклада каждого ресурса в улучшение модели мы используем легковесную модель 1-Step Look-ahead Reward, которая принимает во внимание вклад каждого набора в процесс обучения. ## Результаты Мы проводим эксперименты с DynamixSFT, используя набор данных Tulu-v2-mixture, состоящий из 16 инструкционных наборов. Мы сравниваем результаты с другими методами, такими как uniform sampling и vanilla Boltzmann Exploration. Наши результаты показывают, что DynamixSFT улучшает качество модели на до 2.2% в 10 разных бенчмарковых задачах. Мы также предоставляем анализ и визуализации, подробно описывающие динамику нашего метода и влияние каждого компонента на полученные результаты. ## Значимость Метод DynamixSFT может использоваться в различных областях, где требуется высокая эффективность обучения моделей со сложными инструкциями, например в системах распределенного обучения, в области генеративных моделей и в области оптимизации моделей для конкретных задач. Наш метод демонстрирует преимущества при использовании динамического управления смесью данных, что может привести к повышению качества моделей без значительных изменений архитектуры. Это открывает новые возможности для улучшения процесса обучения в целом. ## Выводы Мы представили DynamixSFT как мощный метод для оптимизации смеси инструкционных данных в процессе обучения моделей. Наши результаты показывают, что данный подход может значительно улучшить качество моделей без значительного увеличения ресурсов. В будущем, мы планируем расширить применение DynamixSFT на другие типы моделей и данных, а также улучшить его адаптацию в ситуациях с б

Abstract

As numerous instruction-tuning datasets continue to emerge during the post-training stage, dynamically balancing and optimizing their mixtures has become a critical challenge. To address this, we propose DynamixSFT, a dynamic and automated method for instruction-tuning dataset mixture optimization. We formulate the problem as a multi-armed bandit setup and introduce a Prior-scaled Boltzmann Exploration that softly anchors the updated sampling distribution to the original dataset proportions, thereby preserving the inherent diversity and coverage of the collection. Sampling probabilities are updated using a lightweight 1-Step Look-ahead Reward, reflecting how much the dataset contributes to improving the model's performance at its current state. When applied to the Tulu-v2-mixture collection comprising 16 instruction-tuning datasets, DynamixSFT achieves up to a 2.2% performance improvement across 10 benchmarks. Furthermore, we provide a comprehensive analysis and visualizations to offer deeper insights into the adaptive dynamics of our method.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

DynamixSFT: Dynamic Mixture Optimization of Instruction Tuning Collections

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

CARL: Critical Action Focused Reinforcement Learning for Multi-Step Agent

Multi-LLM Collaboration for Medication Recommendation

Network of Theseus (like the ship)

SPARK: Stepwise Process-Aware Rewards for Reference-Free Reinforcement Learning

Mode-Conditioning Unlocks Superior Test-Time Scaling

Навигация