#### Контекст
Generative models, такие как системы текст-к-изображению и изображение-к-изображению, стали основополагающими в создании изображений и видео. Однако, несмотря на их продвинутые возможности, эти модели обычно работают в режиме индивидуального выбора пользователя, то есть каждая выдаваемая картинка — это отдельный элемент. В реальной жизни пользователи часто хотят получить несколько вариантов изображений для одного запроса, чтобы сравнивать их и выбирать наиболее подходящий. Такая ситуация возникает, например, при создании разнообразных вариантов для логотипа или когда необходимо выбрать несколько изображений для создания видеосюжета. Недостаток такого подхода заключается в том, что стандартные методы выбора семплов приводят к повторяющимся или недостаточно инновационным результатам. Данная работа адресует эту проблему, предлагая метод, который улучшает как качество, так и разнообразие группы изображений, генерируемых одной моделью.
#### Метод
Мы предлагаем метод **scalable group inference**, который преобразует задачу выбора группы изображений в задачу квадратичного целочисленного задания. В этой модели каждое изображение — это узел графа, а кандидаты выбираются так, чтобы обеспечить максимальное качество каждого отдельного изображения (это — unary term) и максимальное разнообразие в группе изображений (это — binary term). Чтобы увеличить эффективность вычислений, мы применяем **progressive pruning**, т. е. постепенно удаляем кандидатов, используя начальные предсказания модели. Эта техника позволяет нашему методу работать даже при очень больших группах кандидатов, что делает его применимым для задач, где требуется выбирать множество генерируемых изображений.
#### Результаты
Мы провели ряд экспериментов на различных задачах: текст-к-изображению, изображение-к-изображению, построении групп изображений по запросу пользователя и видеогенерации. Мы сравнивали нашу модель с базовым подходом индивидуального выбора и с некоторыми подходами, работающими на уровне генерации. Наши результаты показали, что **scalable group inference** увеличивает как качество, так и разнообразие группы изображений, по сравнению с основными методами. Например, для текст-к-изображению генерируемые группы оказались более разнообразными и творческими, а для видеогенерации — более координированными в целом потоке.
#### Значимость
Наш метод может быть применен в различных областях, где требуется высокое разнообразие и качество изображений. Например, он может использоваться в творческом дизайне, видеоредактировании, реалистичной видеогенерации. Этот подход улучшает выбор пользова