Concepts or Skills? Rethinking Instruction Selection for Multi-modal Models

2508.10339v1 cs.CV, cs.LG 2025-08-16

Авторы:

Andrew Bai, Justin Cui, Ruochen Wang, Cho-Jui Hsieh

Резюме на русском

Заголовок: Concepts or Skills? Rethinking Instruction Selection for Multi-modal Models ## Контекст Визуально-языковые модели (виджонтал-модели) широко применяются в решении задач обработки и анализа изображений и текста. Одной из ключевых задач в работе этих моделей является инструкционное тюнинг (instruction tuning), нацеленное на обучение моделей как визуальных концепций (concepts), так и визуальным навыкам (skills). В настоящее время существуют много моделей, тренируемых на различных виджонтал-инструкциях (vision-language instruction), но не всегда очевидно, какие именно концепции или навыки будут иметь наибольшее влияние на повышение производительности модели. Данная работа нацелена на изучение этой проблемы, нашедшей отражение в наборах данных, используемых для обучения моделей. ## Метод Методология исследования основывается на анализе входных данных виджонтал-инструкций, извлечении концепций и навыков, а также определении того, какие именно из них более важны для повышения производительности модели на конкретной задаче. Работа предлагает простой алгоритм для выбора целевой инструкционной выборки, направленной на оптимизацию модели для конкретного набора данных. Этот алгоритм включает следующие этапы: (1) извлечение концепций и навыков из набора данных; (2) определение того, какие из этих концепций или навыков важнее для моделирования; (3) выбор тестов, которые больше всего соответствуют выбранным концепциям/навыкам. Эта методика позволяет оптимизировать процесс обучения моделей, учитывая точечные требования конкретных задач. ## Результаты Основные эксперименты проводились на 10+ виджонтал-инструкционных наборах данных, позволяющих проверить эффективность нового метода выбора тестов. На основе экспериментов было показано, что целевая выборка инструкций, которая соответствует конкретным концепциям или навыкам, может улучшить производительность модели на +0.9% по сравнению с лучшим существующим базоймим. Изученные модели показали отличительную производительность в сценариях, требующих гибкого использования концепций или навыков. Этот подход также показал +1.5% роста в производительности на skill-focused subset, подтверждая значимость целевого выбора инструкций для многомодальных моделей. ## Значимость Полученные результаты показали, что подход к выбору инструкций позволяет улучшить модели в задачах, в которых нужно либо сфокусироваться на концептуальных знаниях, либо на навыках. Это значит, что модели могут быть оптимизированы для разных типов задач благодаря учету их особенностей. Такая гибкость в выборе инструкций позволяет моделям быть более эффективными в различных применениях, в том числе в задачах распозна

Abstract

Vision-language instruction tuning achieves two main purposes: learning visual concepts and learning visual skills. In this paper, we found that vision-language benchmarks fall into the dichotomy of mainly benefiting from training on instructions with similar skills or visual concepts. Inspired by the discovery, we designed a simple targeted training data selection method to optimize the performance of a given benchmark. We first extract the concepts/skills from the benchmark, determine whether the benchmark predominantly benefits from similar concepts or skills, and finally select instructions with the most matching concepts/skills. Experiments on 10+ benchmarks validate the effectiveness of our targeted data selection method, showing +0.9\% over the best existing baseline averaged over all benchmarks and +1.5\% on the skill-focused subset. Our findings underscore the importance of recognizing the inherent trade-off within instruction selection, which requires balancing the acquisition of conceptual knowledge against visual skill.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Concepts or Skills? Rethinking Instruction Selection for Multi-modal Models

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Plug-and-Play Image Restoration with Flow Matching: A Continuous Viewpoint

Inference-time Stochastic Refinement of GRU-Normalizing Flow for Real-time Video...

Rethinking the Use of Vision Transformers for AI-Generated Image Detection

Aligned but Stereotypical? The Hidden Influence of System Prompts on Social Bias...

HTR-ConvText: Leveraging Convolution and Textual Information for Handwritten Tex...

Навигация