Composition and Alignment of Diffusion Models using Constrained Learning

2508.19104v1 cs.LG, eess.IV, stat.ML 2025-08-28
Авторы:

Shervin Khalafi, Ignacio Hounie, Dongsheng Ding, Alejandro Ribeiro

Резюме на русском

## Контекст Generative модели, такие как diffusion models, стали популярными в области машинного обучения, в частности в генерировании графических изображений. Они могут хорошо работать в сложных распределениях, но часто сталкиваются с проблемами соответствия пользовательским требованиям. Два распространенных подхода к улучшению качества и соответствия выходных данных являются **alignment** (согласование модели с определенным регулятором) и **composition** (комбинирование различных моделей для достижения более широкого спектра качественных выходных данных). Однако, при попытке оптимизировать модель по нескольким критериям, возникают конфликты между ними, так как различные модели могут отражать противоречивые атрибуты. Существующие методы не могут гарантировать успех в создании модели, которая бы удовлетворяла всем требуемым критериям. Наша работа фокусируется на создании фреймворма, который может комбинировать и выравнивать модели diffusion, учитывая оба критерия — композицию и выравнивание. ## Метод Мы предлагаем новый фреймворк, который использует **constrained optimization**, чтобы объединить alignment и composition моделей diffusion. Фреймворк оптимизирует модель, чтобы она удовлетворяла определенным требованиям в плане выполнения, при этом оставаясь близкой к одной или нескольким предварительно обученным моделям. Мы используем технику Lagrangian-based primal-dual optimization для того, чтобы решать эти задачи в рамках нашей модели. Наша архитектура позволяет построить модель, которая решает проблему конфликта между несколькими требованиями, управляя ими в соответствии с предварительно определенными ограничениями. Алгоритм нашего подхода позволяет решать задачи композиции и выравнивания в рамках одной модели. ## Результаты Мы проверили нашу модель на задаче генерирования изображений, применяя ее как для выравнивания, так и для композиции. Мы сравнили результаты наших моделей с моделями, которые использовались в простых подходах, таких как equally-weighted approach. Мы показали, что наш подход эффективно решает задачи выравнивания и композиции, а также показал улучшение в выполнении по сравнению с методами, которые не учитывали ограничения. Эксперименты проводились на различных данных, позволяя проверить эффективность нашего подхода в разных условиях. ## Значимость Мы показали, что наша модель эффективно решает задачи в области машинного генерирования изображений, когда необходимо учитывать несколько разных критериев. Наш подход можно применить в различных областях, таких как генерирование изображений, текста, звука и даже в медицинской обработке изображений. Мы показали, что наша модель может лучше справиться с задачей сохранения нескольких атрибутов, что делает ее боле

Abstract

Diffusion models have become prevalent in generative modeling due to their ability to sample from complex distributions. To improve the quality of generated samples and their compliance with user requirements, two commonly used methods are: (i) Alignment, which involves fine-tuning a diffusion model to align it with a reward; and (ii) Composition, which combines several pre-trained diffusion models, each emphasizing a desirable attribute in the generated outputs. However, trade-offs often arise when optimizing for multiple rewards or combining multiple models, as they can often represent competing properties. Existing methods cannot guarantee that the resulting model faithfully generates samples with all the desired properties. To address this gap, we propose a constrained optimization framework that unifies alignment and composition of diffusion models by enforcing that the aligned model satisfies reward constraints and/or remains close to (potentially multiple) pre-trained models. We provide a theoretical characterization of the solutions to the constrained alignment and composition problems and develop a Lagrangian-based primal-dual training algorithm to approximate these solutions. Empirically, we demonstrate the effectiveness and merits of our proposed approach in image generation, applying it to alignment and composition, and show that our aligned or composed model satisfies constraints effectively, and improves on the equally-weighted approach. Our implementation can be found at https://github.com/shervinkhalafi/constrained_comp_align.

Ссылки и действия