Next Visual Granularity Generation

2508.12811v1 cs.CV, cs.AI, cs.LG 2025-08-20

Авторы:

Yikai Wang, Zhouxia Wang, Zhonghua Wu, Qingyi Tao, Kang Liao, Chen Change Loy

Резюме на русском

#################### ## Контекст #################### Современные технологии в области изображений стремятся преодолеть пределы реалистичности и точности, предлагая новые подходы к генерации изображений. Одна из самых вызовов в этой области — поддерживать тонкую контрольность над процессом генерации при сохранении высокого качества изображений. Одним из важных аспектов этой задачи является управление "гранулярностью" изображений, то есть способностью генерировать изображения на разных уровнях детализации. Настоящая статья предлагает новый подход, который структурирует пространство гранулярности в целях более точного и эффективного управления процессом генерации. #################### ## Метод #################### Авторы предлагают метод, основанный на декомпозиции изображений в последовательность структурированных элементов, где каждый элемент имеет одинаковую разрешающую способность, но отличается количеством уникальных токенов. Это позволяет представить изображение в разных уровнях детализации — от общей структуры до мелких деталей. Новый подход, названный Next Visual Granularity (NVG), генерирует изображения последовательно, начиная с пустого изображения и постепенно улучшая его, добавляя детали в порядке возрастающей гранулярности. Этот процесс кодирует иерархическую представление, которая обеспечивает тонкую контрольность над каждым этапем генерации. #################### ## Результаты #################### Чтобы проверить эффективность NVG, авторы провели ряд экспериментов на датасете ImageNet. Они обучили серию моделей NVG для класс-условной генерации изображений и сравнили результаты с существующими методами, такими как VAR. Результаты показали, что NVG не только повышает FID-скоры (например, от 3.30 до 3.03 для одного эксперимента), но также демонстрирует более высокую точность и детализацию в генерировании изображений. Это демонстрирует преимущество NVG в обеспечении тонкого контроля над гранулярностью изображений. #################### ## Значимость #################### Предложенный подход имеет широкое применение в сферах, требующих точного контроля над процессом генерации изображений, таких как графические искусства, виртуальная реальность и машинное зрение. Его преимущества включают в себя точность генерации, эффективность в ресурсопотреблении и гибкость в регулировании детализации изображений. Этот подход может иметь потенциал для расширения границ возможностей в искусственном интеллекте и графическом дизайне. #################### ## Выводы #################### Next Visual Granularity (NVG) представляет собой новый подход к генерации изображений, который достигает высокого качества изображений и тонкого контро

Abstract

We propose a novel approach to image generation by decomposing an image into a structured sequence, where each element in the sequence shares the same spatial resolution but differs in the number of unique tokens used, capturing different level of visual granularity. Image generation is carried out through our newly introduced Next Visual Granularity (NVG) generation framework, which generates a visual granularity sequence beginning from an empty image and progressively refines it, from global layout to fine details, in a structured manner. This iterative process encodes a hierarchical, layered representation that offers fine-grained control over the generation process across multiple granularity levels. We train a series of NVG models for class-conditional image generation on the ImageNet dataset and observe clear scaling behavior. Compared to the VAR series, NVG consistently outperforms it in terms of FID scores (3.30 -> 3.03, 2.57 ->2.44, 2.09 -> 2.06). We also conduct extensive analysis to showcase the capability and potential of the NVG framework. Our code and models will be released.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Next Visual Granularity Generation

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

PyroFocus: A Deep Learning Approach to Real-Time Wildfire Detection in Multispec...

ProtoEFNet: Dynamic Prototype Learning for Inherently Interpretable Ejection Fra...

GalaxyDiT: Efficient Video Generation with Guidance Alignment and Adaptive Proxy...

Divide, then Ground: Adapting Frame Selection to Query Types for Long-Form Video...

PSA: Pyramid Sparse Attention for Efficient Video Understanding and Generation

Навигация