Composition and Alignment of Diffusion Models using Constrained Learning
2508.19104v1
cs.LG, eess.IV, stat.ML
2025-08-28
Авторы:
Shervin Khalafi, Ignacio Hounie, Dongsheng Ding, Alejandro Ribeiro
Резюме на русском
## Контекст
Generative модели, такие как diffusion models, стали популярными в области машинного обучения, в частности в генерировании графических изображений. Они могут хорошо работать в сложных распределениях, но часто сталкиваются с проблемами соответствия пользовательским требованиям. Два распространенных подхода к улучшению качества и соответствия выходных данных являются **alignment** (согласование модели с определенным регулятором) и **composition** (комбинирование различных моделей для достижения более широкого спектра качественных выходных данных). Однако, при попытке оптимизировать модель по нескольким критериям, возникают конфликты между ними, так как различные модели могут отражать противоречивые атрибуты. Существующие методы не могут гарантировать успех в создании модели, которая бы удовлетворяла всем требуемым критериям. Наша работа фокусируется на создании фреймворма, который может комбинировать и выравнивать модели diffusion, учитывая оба критерия — композицию и выравнивание.
## Метод
Мы предлагаем новый фреймворк, который использует **constrained optimization**, чтобы объединить alignment и composition моделей diffusion. Фреймворк оптимизирует модель, чтобы она удовлетворяла определенным требованиям в плане выполнения, при этом оставаясь близкой к одной или нескольким предварительно обученным моделям. Мы используем технику Lagrangian-based primal-dual optimization для того, чтобы решать эти задачи в рамках нашей модели. Наша архитектура позволяет построить модель, которая решает проблему конфликта между несколькими требованиями, управляя ими в соответствии с предварительно определенными ограничениями. Алгоритм нашего подхода позволяет решать задачи композиции и выравнивания в рамках одной модели.
## Результаты
Мы проверили нашу модель на задаче генерирования изображений, применяя ее как для выравнивания, так и для композиции. Мы сравнили результаты наших моделей с моделями, которые использовались в простых подходах, таких как equally-weighted approach. Мы показали, что наш подход эффективно решает задачи выравнивания и композиции, а также показал улучшение в выполнении по сравнению с методами, которые не учитывали ограничения. Эксперименты проводились на различных данных, позволяя проверить эффективность нашего подхода в разных условиях.
## Значимость
Мы показали, что наша модель эффективно решает задачи в области машинного генерирования изображений, когда необходимо учитывать несколько разных критериев. Наш подход можно применить в различных областях, таких как генерирование изображений, текста, звука и даже в медицинской обработке изображений. Мы показали, что наша модель может лучше справиться с задачей сохранения нескольких атрибутов, что делает ее боле
Abstract
Diffusion models have become prevalent in generative modeling due to their
ability to sample from complex distributions. To improve the quality of
generated samples and their compliance with user requirements, two commonly
used methods are: (i) Alignment, which involves fine-tuning a diffusion model
to align it with a reward; and (ii) Composition, which combines several
pre-trained diffusion models, each emphasizing a desirable attribute in the
generated outputs. However, trade-offs often arise when optimizing for multiple
rewards or combining multiple models, as they can often represent competing
properties. Existing methods cannot guarantee that the resulting model
faithfully generates samples with all the desired properties. To address this
gap, we propose a constrained optimization framework that unifies alignment and
composition of diffusion models by enforcing that the aligned model satisfies
reward constraints and/or remains close to (potentially multiple) pre-trained
models. We provide a theoretical characterization of the solutions to the
constrained alignment and composition problems and develop a Lagrangian-based
primal-dual training algorithm to approximate these solutions. Empirically, we
demonstrate the effectiveness and merits of our proposed approach in image
generation, applying it to alignment and composition, and show that our aligned
or composed model satisfies constraints effectively, and improves on the
equally-weighted approach. Our implementation can be found at
https://github.com/shervinkhalafi/constrained_comp_align.