Match & Choose: Model Selection Framework for Fine-tuning Text-to-Image Diffusion Models

2508.10993v1 cs.LG, cs.AI, cs.CL, cs.CV 2025-08-19

Авторы:

Basile Lewandowski, Robert Birke, Lydia Y. Chen

Резюме на русском

## Контекст Текст-на-изображение (T2I) модели, основанные на архитектурах диффузии и трансформеров, постоянно развиваются. Их обучают на больших корпусах данных, после чего эти модели опубликованы на платформах, таких как HuggingFace. Пользователи могут использовать эти модели для создания приложений, например, генерации медиаконтента, посредством оптимизации под конкретные данные. Однако появляется новый вопрос: какая модель лучше всего подходит для определенной области? Несмотря на то, что для задач классификации имеются уже оцененные методы выбора моделей, подобные подходы для T2I-моделей остаются неизученными. Мы предлагаем **Match & Choose (M&C)** — первый фреймворк для модели выбора лучшей T2I-модели для определенной области, позволяющий пользователям эффективно выбирать модели без необходимости проводить их последовательную оптимизацию. ## Метод M&C фреймворъ представляет собой граф матчей, в котором узлы соответствуют T2I-моделям и датасетам, а ребра представляют профили моделей и датасетов, оцененные на основе их выполнения. Мы разрабатываем модель, которая использует эту структуру для предсказания лучшей модели для каждого датасета. Наша модель использует три типа признаков: информацию о модели, о датасете и графические данные о матче. Мы сравниваем M&C с тремя базовыми подходами, анализируя его точность в предсказании лучшей модели. ## Результаты Мы оцениваем M&C на 32 датасетах и 10 моделях T2I. Метод показывает высокую точность: в 61.3% случаев он выбирает лучшую модель для оптимизации. Остальные случаи обычно приводят к выбору моделей с минимальным разницей в качестве результата. Этот подход позволяет экономить ресурсы за счет того, что пользователи не нуждаются в постоянной оптимизации всех моделей. ## Значимость M&C может иметь широкое применение в искусственном интеллекте, где пользователи нуждаются в эффективной оптимизации моделей. Он позволяет сократить время и ресурсы, необходимые для выбора модели, и дает пользователям возможность быстро оптимизировать свои решения. Этот фреймворк может использоваться в различных областях, включая медиа-генерацию, обработку естественного языка, и даже в сегментации изображений, где требуется высококачественное представление. ## Выводы Мы представили уникальный подход к модели выбора лучшей T2I-модели для целевого датасета. Мы показали, что M&C эффективно работает в ситуациях, где пользователи должны выбирать модели для оптимизации. Наш фреймворк может стать ключевым инструментом для улучшения работы с T2I-моделями. Мы плани

Abstract

Text-to-image (T2I) models based on diffusion and transformer architectures advance rapidly. They are often pretrained on large corpora, and openly shared on a model platform, such as HuggingFace. Users can then build up AI applications, e.g., generating media contents, by adopting pretrained T2I models and fine-tuning them on the target dataset. While public pretrained T2I models facilitate the democratization of the models, users face a new challenge: which model can be best fine-tuned based on the target data domain? Model selection is well addressed in classification tasks, but little is known in (pretrained) T2I models and their performance indication on the target domain. In this paper, we propose the first model selection framework, M&C, which enables users to efficiently choose a pretrained T2I model from a model platform without exhaustively fine-tuning them all on the target dataset. The core of M&C is a matching graph, which consists of: (i) nodes of available models and profiled datasets, and (ii) edges of model-data and data-data pairs capturing the fine-tuning performance and data similarity, respectively. We then build a model that, based on the inputs of model/data feature, and, critically, the graph embedding feature, extracted from the matching graph, predicts the model achieving the best quality after fine-tuning for the target domain. We evaluate M&C on choosing across ten T2I models for 32 datasets against three baselines. Our results show that M&C successfully predicts the best model for fine-tuning in 61.3% of the cases and a closely performing model for the rest.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Match & Choose: Model Selection Framework for Fine-tuning Text-to-Image Diffusion Models

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Impact of Layer Norm on Memorization and Generalization in Transformers

Metis-SPECS: Decoupling Multimodal Learning via Self-distilled Preference-based ...

Do Students Debias Like Teachers? On the Distillability of Bias Mitigation Metho...

Compress to Impress: Efficient LLM Adaptation Using a Single Gradient Step on 10...

Towards Reversible Model Merging For Low-rank Weights

Навигация