Scaling Group Inference for Diverse and High-Quality Generation
2508.15773v1
cs.CV, cs.GR, cs.LG
2025-08-23
Авторы:
Gaurav Parmar, Or Patashnik, Daniil Ostashev, Kuan-Chieh Wang, Kfir Aberman, Srinivasa Narasimhan, Jun-Yan Zhu
Резюме на русском
#### Контекст
Generative models, такие как системы текст-к-изображению и изображение-к-изображению, стали основополагающими в создании изображений и видео. Однако, несмотря на их продвинутые возможности, эти модели обычно работают в режиме индивидуального выбора пользователя, то есть каждая выдаваемая картинка — это отдельный элемент. В реальной жизни пользователи часто хотят получить несколько вариантов изображений для одного запроса, чтобы сравнивать их и выбирать наиболее подходящий. Такая ситуация возникает, например, при создании разнообразных вариантов для логотипа или когда необходимо выбрать несколько изображений для создания видеосюжета. Недостаток такого подхода заключается в том, что стандартные методы выбора семплов приводят к повторяющимся или недостаточно инновационным результатам. Данная работа адресует эту проблему, предлагая метод, который улучшает как качество, так и разнообразие группы изображений, генерируемых одной моделью.
#### Метод
Мы предлагаем метод **scalable group inference**, который преобразует задачу выбора группы изображений в задачу квадратичного целочисленного задания. В этой модели каждое изображение — это узел графа, а кандидаты выбираются так, чтобы обеспечить максимальное качество каждого отдельного изображения (это — unary term) и максимальное разнообразие в группе изображений (это — binary term). Чтобы увеличить эффективность вычислений, мы применяем **progressive pruning**, т. е. постепенно удаляем кандидатов, используя начальные предсказания модели. Эта техника позволяет нашему методу работать даже при очень больших группах кандидатов, что делает его применимым для задач, где требуется выбирать множество генерируемых изображений.
#### Результаты
Мы провели ряд экспериментов на различных задачах: текст-к-изображению, изображение-к-изображению, построении групп изображений по запросу пользователя и видеогенерации. Мы сравнивали нашу модель с базовым подходом индивидуального выбора и с некоторыми подходами, работающими на уровне генерации. Наши результаты показали, что **scalable group inference** увеличивает как качество, так и разнообразие группы изображений, по сравнению с основными методами. Например, для текст-к-изображению генерируемые группы оказались более разнообразными и творческими, а для видеогенерации — более координированными в целом потоке.
#### Значимость
Наш метод может быть применен в различных областях, где требуется высокое разнообразие и качество изображений. Например, он может использоваться в творческом дизайне, видеоредактировании, реалистичной видеогенерации. Этот подход улучшает выбор пользова
Abstract
Generative models typically sample outputs independently, and recent
inference-time guidance and scaling algorithms focus on improving the quality
of individual samples. However, in real-world applications, users are often
presented with a set of multiple images (e.g., 4-8) for each prompt, where
independent sampling tends to lead to redundant results, limiting user choices
and hindering idea exploration. In this work, we introduce a scalable group
inference method that improves both the diversity and quality of a group of
samples. We formulate group inference as a quadratic integer assignment
problem: candidate outputs are modeled as graph nodes, and a subset is selected
to optimize sample quality (unary term) while maximizing group diversity
(binary term). To substantially improve runtime efficiency, we progressively
prune the candidate set using intermediate predictions, allowing our method to
scale up to large candidate sets. Extensive experiments show that our method
significantly improves group diversity and quality compared to independent
sampling baselines and recent inference algorithms. Our framework generalizes
across a wide range of tasks, including text-to-image, image-to-image, image
prompting, and video generation, enabling generative models to treat multiple
outputs as cohesive groups rather than independent samples.
Ссылки и действия
Дополнительные ресурсы: