UMO: Scaling Multi-Identity Consistency for Image Customization via Matching Reward
2509.06818v1
cs.CV, cs.LG
2025-09-10
Авторы:
Yufeng Cheng, Wenxu Wu, Shaojin Wu, Mengqi Huang, Fei Ding, Qian He
Резюме на русском
## Контекст
Современные технологии обработки изображений широко применяются в различных областях, включая коммерческий сегмент, образовательные процессы и искусство. Одной из наиболее выразительных задач в этой области является обеспечение согласованности идентичности при работе с многочисленными идентичностями на изображениях. Несмотря на развитие многочисленных методов, одной из основных проблем остается улучшение качества результатов при работе с несколькими идентичностями, чтобы избежать конфузии идентичности при обработке изображений с несколькими справочными изображениями. Таким образом, необходимо создать более эффективные алгоритмы и методы для решения этой проблемы, чтобы повысить точность и качество работы с изображениями в различных сценариях применения.
## Метод
Для решения данной проблемы предлагается UMO (Unified Multi-identity Optimization) – фреймворк, основанный на методологии "multi-to-multi matching". Он преобразует задачу многоидентичности в проблему глобальной оптимизации и использует методы управляемого распространения с помощью шума (diffusion models) для повышения качества идентичности. Данный подход позволяет улучшить консистентность идентичности и уменьшить конфузию идентичности с помощью повышения уровня согласованности между различными идентичностями. Метод использует реальные и синтетические данные, а также внедряет новую метрику для измерения уровня конфузии идентичности. Это позволяет обеспечить более точный и эффективный подход к задаче.
## Результаты
Использовав данный подход, были проведены эксперименты, в которых было доказано, что UMO значительно улучшает консистентность идентичности и уменьшает уровень конфузии идентичности в сравнении с другими методами. Было использовано новое датасет, содержащее объединенные реальные и синтетические изображения, чтобы улучшить результаты. Таким образом, UMO демонстрирует значительное улучшение в области идентичности и стабильности, становясь новым стандартом в области многоидентичных технологий.
## Значимость
UMO применяется в различных сферах, включая генерацию изображений, рекламу, образовательные цели и многое другое. Он показывает высокую степень точности и надежности при решении задач многоидентичности, что позволяет вносить значительный вклад в развитие технологий, связанных с корректным восприятием идентичности на изображениях. Это может повлиять на развитие графического дизайна, рекламы и интерактивных приложений.
## Выводы
UMO представляет собой прорыв в области многоидентичности, обеспечивая значительное улучшение качества работы с изображениями. На основе данных исследований, рекомендуется продолжать исследования в этом нап
Abstract
Recent advancements in image customization exhibit a wide range of
application prospects due to stronger customization capabilities. However,
since we humans are more sensitive to faces, a significant challenge remains in
preserving consistent identity while avoiding identity confusion with
multi-reference images, limiting the identity scalability of customization
models. To address this, we present UMO, a Unified Multi-identity Optimization
framework, designed to maintain high-fidelity identity preservation and
alleviate identity confusion with scalability. With "multi-to-multi matching"
paradigm, UMO reformulates multi-identity generation as a global assignment
optimization problem and unleashes multi-identity consistency for existing
image customization methods generally through reinforcement learning on
diffusion models. To facilitate the training of UMO, we develop a scalable
customization dataset with multi-reference images, consisting of both
synthesised and real parts. Additionally, we propose a new metric to measure
identity confusion. Extensive experiments demonstrate that UMO not only
improves identity consistency significantly, but also reduces identity
confusion on several image customization methods, setting a new
state-of-the-art among open-source methods along the dimension of identity
preserving. Code and model: https://github.com/bytedance/UMO
Ссылки и действия
Дополнительные ресурсы: