Scalable GANs with Transformers
2509.24935v1
cs.CV, cs.AI, cs.LG
2025-10-01
Авторы:
Sangeek Hyun, MinKyu Lee, Jae-Pil Heo
Резюме на русском
## Контекст
Генерирующие адверсарные сети (GANs) стали ключевым инструментом в области искусственного интеллекта, применяемых для создания реалистичных изображений, текстов и других открытых приложений. Несмотря на их успех, GANs до сих пор сталкиваются с рядом проблем, включая нестабильность обучения, плохое использование слоев, а также сложность масштабирования. Эти ограничения становятся все более очевидными при попытке масштабирования GANs для работы с большими данными и высокими разрешениями. Мотивация для данного исследования заключается в рассмотрении возможностей масштабирования GANs с помощью сочетания трансформеров и вариационных автоэнкодеров.
## Метод
Для решения проблем, связанных с масштабированием GANs, авторы предлагают Scalable GANs with Transformers (GAT). Эта модель основывается на двух основных компонентах:
1. **Training in Latent Space**: Обучение GANs в центральном пространстве вариационного автоэнкодера (VAE), что позволяет эффективно использовать ресурсы компьютера и сохранять высокую качественную реализацию.
2. **Plain Transformers**: Использование трансформеров как генератора и дискриминатора, чтобы обеспечить гибкость и масштабируемость модели.
Для улучшения обучения, авторы предлагают два дополнительных решения:
- **Lightweight Intermediate Supervision**: Улучшение локального контроля над генерацией, чтобы избежать ошибок подключения.
- **Width-Aware Learning-Rate Adjustment**: Адаптивная настройка скорости обучения в зависимости от ширины слоев, чтобы предотвратить установку оптимизации.
## Результаты
Авторы проводят эксперименты на ImageNet-256, сравнивая GAT с другими сильными моделями. Главные результаты:
- **FID (Frechet Inception Distance)**: GAT-XL/2 достигает FID 2.96 за 40 эпох, что примерно в 6 раз быстрее, чем сильные базовые модели, такие как StyleGAN3.
- **Scalability**: GAT может быть эффективно масштабирована с S-size до XL-size с минимальными изменениями в архитектуре.
- **Efficiency and Stability**: Модель показывает высокую эффективность и устойчивость при масштабировании, что отличает ее от других GANs.
## Значимость
GAT может применяться в различных областях, таких как генерация реалистичных изображений, редактирование изображений, искусственно созданные данные для обучения других моделей. Основные преимущества включают:
- **High-Fidelity Generation**: Нарушение меньшей части модели в генерации реалистичных изображений.
- **Scalability**: Модель может быть эффективно масштабирована для работы с большими данными и высокими разрешениями.
- **Efficiency and Stability**: Улучшенная оптимизация и устойчивость к нестабильности при масштабировании.
GAT открывает новый подход к масштабированию GANs, что может повлиять на дальнейше
Abstract
Scalability has driven recent advances in generative modeling, yet its
principles remain underexplored for adversarial learning. We investigate the
scalability of Generative Adversarial Networks (GANs) through two design
choices that have proven to be effective in other types of generative models:
training in a compact Variational Autoencoder latent space and adopting purely
transformer-based generators and discriminators. Training in latent space
enables efficient computation while preserving perceptual fidelity, and this
efficiency pairs naturally with plain transformers, whose performance scales
with computational budget. Building on these choices, we analyze failure modes
that emerge when naively scaling GANs. Specifically, we find issues as
underutilization of early layers in the generator and optimization instability
as the network scales. Accordingly, we provide simple and scale-friendly
solutions as lightweight intermediate supervision and width-aware learning-rate
adjustment. Our experiments show that GAT, a purely transformer-based and
latent-space GANs, can be easily trained reliably across a wide range of
capacities (S through XL). Moreover, GAT-XL/2 achieves state-of-the-art
single-step, class-conditional generation performance (FID of 2.96) on
ImageNet-256 in just 40 epochs, 6x fewer epochs than strong baselines.
Ссылки и действия
Дополнительные ресурсы: