Match & Choose: Model Selection Framework for Fine-tuning Text-to-Image Diffusion Models
2508.10993v1
cs.LG, cs.AI, cs.CL, cs.CV
2025-08-19
Авторы:
Basile Lewandowski, Robert Birke, Lydia Y. Chen
Резюме на русском
## Контекст
Текст-на-изображение (T2I) модели, основанные на архитектурах диффузии и трансформеров, постоянно развиваются. Их обучают на больших корпусах данных, после чего эти модели опубликованы на платформах, таких как HuggingFace. Пользователи могут использовать эти модели для создания приложений, например, генерации медиаконтента, посредством оптимизации под конкретные данные. Однако появляется новый вопрос: какая модель лучше всего подходит для определенной области? Несмотря на то, что для задач классификации имеются уже оцененные методы выбора моделей, подобные подходы для T2I-моделей остаются неизученными. Мы предлагаем **Match & Choose (M&C)** — первый фреймворк для модели выбора лучшей T2I-модели для определенной области, позволяющий пользователям эффективно выбирать модели без необходимости проводить их последовательную оптимизацию.
## Метод
M&C фреймворъ представляет собой граф матчей, в котором узлы соответствуют T2I-моделям и датасетам, а ребра представляют профили моделей и датасетов, оцененные на основе их выполнения. Мы разрабатываем модель, которая использует эту структуру для предсказания лучшей модели для каждого датасета. Наша модель использует три типа признаков: информацию о модели, о датасете и графические данные о матче. Мы сравниваем M&C с тремя базовыми подходами, анализируя его точность в предсказании лучшей модели.
## Результаты
Мы оцениваем M&C на 32 датасетах и 10 моделях T2I. Метод показывает высокую точность: в 61.3% случаев он выбирает лучшую модель для оптимизации. Остальные случаи обычно приводят к выбору моделей с минимальным разницей в качестве результата. Этот подход позволяет экономить ресурсы за счет того, что пользователи не нуждаются в постоянной оптимизации всех моделей.
## Значимость
M&C может иметь широкое применение в искусственном интеллекте, где пользователи нуждаются в эффективной оптимизации моделей. Он позволяет сократить время и ресурсы, необходимые для выбора модели, и дает пользователям возможность быстро оптимизировать свои решения. Этот фреймворк может использоваться в различных областях, включая медиа-генерацию, обработку естественного языка, и даже в сегментации изображений, где требуется высококачественное представление.
## Выводы
Мы представили уникальный подход к модели выбора лучшей T2I-модели для целевого датасета. Мы показали, что M&C эффективно работает в ситуациях, где пользователи должны выбирать модели для оптимизации. Наш фреймворк может стать ключевым инструментом для улучшения работы с T2I-моделями. Мы плани
Abstract
Text-to-image (T2I) models based on diffusion and transformer architectures
advance rapidly. They are often pretrained on large corpora, and openly shared
on a model platform, such as HuggingFace. Users can then build up AI
applications, e.g., generating media contents, by adopting pretrained T2I
models and fine-tuning them on the target dataset. While public pretrained T2I
models facilitate the democratization of the models, users face a new
challenge: which model can be best fine-tuned based on the target data domain?
Model selection is well addressed in classification tasks, but little is known
in (pretrained) T2I models and their performance indication on the target
domain. In this paper, we propose the first model selection framework, M&C,
which enables users to efficiently choose a pretrained T2I model from a model
platform without exhaustively fine-tuning them all on the target dataset. The
core of M&C is a matching graph, which consists of: (i) nodes of available
models and profiled datasets, and (ii) edges of model-data and data-data pairs
capturing the fine-tuning performance and data similarity, respectively. We
then build a model that, based on the inputs of model/data feature, and,
critically, the graph embedding feature, extracted from the matching graph,
predicts the model achieving the best quality after fine-tuning for the target
domain. We evaluate M&C on choosing across ten T2I models for 32 datasets
against three baselines. Our results show that M&C successfully predicts the
best model for fine-tuning in 61.3% of the cases and a closely performing model
for the rest.