Deeper Inside Deep ViT

2508.04181v1 cs.CV 2025-08-09
Авторы:

Sungrae Hong

Резюме на русском

В статье **"Deeper Inside Deep ViT"** рассматривается исследование больших виджет-моделей (ViT), таких как ViT-22B. Несмотря на обширные анализы и полученные с помощью таких моделей знания, их практическое применение остается неясным. Авторы исследуют поведение ViT-22B в локальной среде и выявляют проблему нестабильности тренировки. Для решения этой проблемы предлагаются модификации модели, которые повышают ее устойчивость. Также авторы рассматривают задачу изображения по генерации изображений, которая ранее не исследовалась в контексте ViT-22B. Они предлагают архитектуру для генерации изображений, основанную на ViT, и проводят сравнительный анализ того, какая модель — ViT или ViT-22B — подходит лучше для этой задачи. В результате ViT-22B показал более высокую эффективность по сравнению с оригинальным ViT в тестовых задачах, при условии одинакового количества параметров.

Abstract

There have been attempts to create large-scale structures in vision models similar to LLM, such as ViT-22B. While this research has provided numerous analyses and insights, our understanding of its practical utility remains incomplete. Therefore, we examine how this model structure reacts and train in a local environment. We also highlight the instability in training and make some model modifications to stabilize it. The ViT-22B model, trained from scratch, overall outperformed ViT in terms of performance under the same parameter size. Additionally, we venture into the task of image generation, which has not been attempted in ViT-22B. We propose an image generation architecture using ViT and investigate which between ViT and ViT-22B is a more suitable structure for image generation.

Ссылки и действия