AToken: A Unified Tokenizer for Vision

2509.14476v2 cs.CV, cs.AI, cs.MM 2025-09-22
Авторы:

Jiasen Lu, Liangchen Song, Mingze Xu, Byeongjoo Ahn, Yanjun Wang, Chen Chen, Afshin Dehghan, Yinfei Yang

Резюме на русском

## Контекст Область исследования рассматривает проблемы рендеринга и семантического понимания визуальных данных в различных модальностях, таких как изображения, видео и 3D-ресурсы. Существующие методы обычно сосредоточены на одной модальности или задаче, что приводит к ограниченности и неэффективности в многомодальных сценариях. Мотивацией для разработки AToken является необходимость в единой модели, которая могла бы обеспечить высокую точность реконструкции и семантическое понимание во всех визуальных модальностях. Это позволит создавать универсальные многомодальные AI-системы, объединяющие в себе задачи распознавания и генерации визуальных данных. ## Метод AToken представляет собой первый единообразный визуальный токенизатор, который объединяет задачи реконструкции и семантического понимания в разных визуальных модальностях. Он использует полностью трансформерный подход с 4D-ротационными позиционными плотностями (4D rotary position embeddings), что позволяет обрабатывать визуальные данные различных разрешений и продолжительности. Для обеспечения стабильного обучения, вместо адверсариальных функций, используется комбинация целевых функций на основе перцептуальных показателей и грамматических матриц. Обучение происходит по курсиву, начиная с отдельных изображений, затем переходя к видео и 3D-ресурсам. Это позволяет AToken поддерживать как непрерывные, так и дискретные визуальные токены. ## Результаты Используя широкий набор экспериментов, AToken показал свою эффективность на различных показателях. Для изображений, он достиг 0.21 rFID и 82.2% точности классификации по ImageNet. Для видео, он показал 3.01 rFVD и 40.2% точности поиска в MSRVTT. Для 3D-ресурсов, он достиг 28.28 PSNR и 90.9% точности классификации. Эти результаты показывают высокую точность в реконструкции и понимании визуальных данных во всех модальностях. AToken также доказал свою эффективность в задачах генерации визуальных данных, таких как текстовое построение видео и синтез 3D-ресурсов из изображений, а также в задачах многомодальных глубоких сетей. ## Значимость AToken может применяться в различных областях, включая создание многомодальных AI-систем, искусственного генерирования визуальных данных и понимание таких данных. Он обеспечивает высокую точность реконструкции и понимания, что делает его подходом к развитию будущих многомодальных систем. Его прогрессивный подход и универсальная архитектура делает AToken подходящим для обработки сложных визуальных задач и для развития широкого круга приложений. ## Выводы AToken достиг высокой точности в реконструкции и по

Abstract

We present AToken, the first unified visual tokenizer that achieves both high-fidelity reconstruction and semantic understanding across images, videos, and 3D assets. Unlike existing tokenizers that specialize in either reconstruction or understanding for single modalities, AToken encodes these diverse visual inputs into a shared 4D latent space, unifying both tasks and modalities in a single framework. Specifically, we introduce a pure transformer architecture with 4D rotary position embeddings to process visual inputs of arbitrary resolutions and temporal durations. To ensure stable training, we introduce an adversarial-free training objective that combines perceptual and Gram matrix losses, achieving state-of-the-art reconstruction quality. By employing a progressive training curriculum, AToken gradually expands from single images, videos, and 3D, and supports both continuous and discrete latent tokens. AToken achieves 0.21 rFID with 82.2% ImageNet accuracy for images, 3.01 rFVD with 40.2% MSRVTT retrieval for videos, and 28.28 PSNR with 90.9% classification accuracy for 3D.. In downstream applications, AToken enables both visual generation tasks (e.g., image generation with continuous and discrete tokens, text-to-video generation, image-to-3D synthesis) and understanding tasks (e.g., multimodal LLMs), achieving competitive performance across all benchmarks. These results shed light on the next-generation multimodal AI systems built upon unified visual tokenization.

Ссылки и действия