Scalable GANs with Transformers

2509.24935v1 cs.CV, cs.AI, cs.LG 2025-10-01
Авторы:

Sangeek Hyun, MinKyu Lee, Jae-Pil Heo

Резюме на русском

## Контекст Генерирующие адверсарные сети (GANs) стали ключевым инструментом в области искусственного интеллекта, применяемых для создания реалистичных изображений, текстов и других открытых приложений. Несмотря на их успех, GANs до сих пор сталкиваются с рядом проблем, включая нестабильность обучения, плохое использование слоев, а также сложность масштабирования. Эти ограничения становятся все более очевидными при попытке масштабирования GANs для работы с большими данными и высокими разрешениями. Мотивация для данного исследования заключается в рассмотрении возможностей масштабирования GANs с помощью сочетания трансформеров и вариационных автоэнкодеров. ## Метод Для решения проблем, связанных с масштабированием GANs, авторы предлагают Scalable GANs with Transformers (GAT). Эта модель основывается на двух основных компонентах: 1. **Training in Latent Space**: Обучение GANs в центральном пространстве вариационного автоэнкодера (VAE), что позволяет эффективно использовать ресурсы компьютера и сохранять высокую качественную реализацию. 2. **Plain Transformers**: Использование трансформеров как генератора и дискриминатора, чтобы обеспечить гибкость и масштабируемость модели. Для улучшения обучения, авторы предлагают два дополнительных решения: - **Lightweight Intermediate Supervision**: Улучшение локального контроля над генерацией, чтобы избежать ошибок подключения. - **Width-Aware Learning-Rate Adjustment**: Адаптивная настройка скорости обучения в зависимости от ширины слоев, чтобы предотвратить установку оптимизации. ## Результаты Авторы проводят эксперименты на ImageNet-256, сравнивая GAT с другими сильными моделями. Главные результаты: - **FID (Frechet Inception Distance)**: GAT-XL/2 достигает FID 2.96 за 40 эпох, что примерно в 6 раз быстрее, чем сильные базовые модели, такие как StyleGAN3. - **Scalability**: GAT может быть эффективно масштабирована с S-size до XL-size с минимальными изменениями в архитектуре. - **Efficiency and Stability**: Модель показывает высокую эффективность и устойчивость при масштабировании, что отличает ее от других GANs. ## Значимость GAT может применяться в различных областях, таких как генерация реалистичных изображений, редактирование изображений, искусственно созданные данные для обучения других моделей. Основные преимущества включают: - **High-Fidelity Generation**: Нарушение меньшей части модели в генерации реалистичных изображений. - **Scalability**: Модель может быть эффективно масштабирована для работы с большими данными и высокими разрешениями. - **Efficiency and Stability**: Улучшенная оптимизация и устойчивость к нестабильности при масштабировании. GAT открывает новый подход к масштабированию GANs, что может повлиять на дальнейше

Abstract

Scalability has driven recent advances in generative modeling, yet its principles remain underexplored for adversarial learning. We investigate the scalability of Generative Adversarial Networks (GANs) through two design choices that have proven to be effective in other types of generative models: training in a compact Variational Autoencoder latent space and adopting purely transformer-based generators and discriminators. Training in latent space enables efficient computation while preserving perceptual fidelity, and this efficiency pairs naturally with plain transformers, whose performance scales with computational budget. Building on these choices, we analyze failure modes that emerge when naively scaling GANs. Specifically, we find issues as underutilization of early layers in the generator and optimization instability as the network scales. Accordingly, we provide simple and scale-friendly solutions as lightweight intermediate supervision and width-aware learning-rate adjustment. Our experiments show that GAT, a purely transformer-based and latent-space GANs, can be easily trained reliably across a wide range of capacities (S through XL). Moreover, GAT-XL/2 achieves state-of-the-art single-step, class-conditional generation performance (FID of 2.96) on ImageNet-256 in just 40 epochs, 6x fewer epochs than strong baselines.

Ссылки и действия