Concepts or Skills? Rethinking Instruction Selection for Multi-modal Models
2508.10339v1
cs.CV, cs.LG
2025-08-16
Авторы:
Andrew Bai, Justin Cui, Ruochen Wang, Cho-Jui Hsieh
Резюме на русском
Заголовок: Concepts or Skills? Rethinking Instruction Selection for Multi-modal Models
## Контекст
Визуально-языковые модели (виджонтал-модели) широко применяются в решении задач обработки и анализа изображений и текста. Одной из ключевых задач в работе этих моделей является инструкционное тюнинг (instruction tuning), нацеленное на обучение моделей как визуальных концепций (concepts), так и визуальным навыкам (skills). В настоящее время существуют много моделей, тренируемых на различных виджонтал-инструкциях (vision-language instruction), но не всегда очевидно, какие именно концепции или навыки будут иметь наибольшее влияние на повышение производительности модели. Данная работа нацелена на изучение этой проблемы, нашедшей отражение в наборах данных, используемых для обучения моделей.
## Метод
Методология исследования основывается на анализе входных данных виджонтал-инструкций, извлечении концепций и навыков, а также определении того, какие именно из них более важны для повышения производительности модели на конкретной задаче. Работа предлагает простой алгоритм для выбора целевой инструкционной выборки, направленной на оптимизацию модели для конкретного набора данных. Этот алгоритм включает следующие этапы: (1) извлечение концепций и навыков из набора данных; (2) определение того, какие из этих концепций или навыков важнее для моделирования; (3) выбор тестов, которые больше всего соответствуют выбранным концепциям/навыкам. Эта методика позволяет оптимизировать процесс обучения моделей, учитывая точечные требования конкретных задач.
## Результаты
Основные эксперименты проводились на 10+ виджонтал-инструкционных наборах данных, позволяющих проверить эффективность нового метода выбора тестов. На основе экспериментов было показано, что целевая выборка инструкций, которая соответствует конкретным концепциям или навыкам, может улучшить производительность модели на +0.9% по сравнению с лучшим существующим базоймим. Изученные модели показали отличительную производительность в сценариях, требующих гибкого использования концепций или навыков. Этот подход также показал +1.5% роста в производительности на skill-focused subset, подтверждая значимость целевого выбора инструкций для многомодальных моделей.
## Значимость
Полученные результаты показали, что подход к выбору инструкций позволяет улучшить модели в задачах, в которых нужно либо сфокусироваться на концептуальных знаниях, либо на навыках. Это значит, что модели могут быть оптимизированы для разных типов задач благодаря учету их особенностей. Такая гибкость в выборе инструкций позволяет моделям быть более эффективными в различных применениях, в том числе в задачах распозна
Abstract
Vision-language instruction tuning achieves two main purposes: learning
visual concepts and learning visual skills. In this paper, we found that
vision-language benchmarks fall into the dichotomy of mainly benefiting from
training on instructions with similar skills or visual concepts. Inspired by
the discovery, we designed a simple targeted training data selection method to
optimize the performance of a given benchmark. We first extract the
concepts/skills from the benchmark, determine whether the benchmark
predominantly benefits from similar concepts or skills, and finally select
instructions with the most matching concepts/skills. Experiments on 10+
benchmarks validate the effectiveness of our targeted data selection method,
showing +0.9\% over the best existing baseline averaged over all benchmarks and
+1.5\% on the skill-focused subset. Our findings underscore the importance of
recognizing the inherent trade-off within instruction selection, which requires
balancing the acquisition of conceptual knowledge against visual skill.
Ссылки и действия
Дополнительные ресурсы: