AToken: A Unified Tokenizer for Vision

2509.14476v1 cs.CV, cs.AI, cs.MM 2025-09-20
Авторы:

Jiasen Lu, Liangchen Song, Mingze Xu, Byeongjoo Ahn, Yanjun Wang, Chen Chen, Afshin Dehghan, Yinfei Yang

Резюме на русском

#### Контекст Актуальность исследования возрастает в условиях развития многомодальных систем, которым требуется обрабатывать разнообразные визуальные данные, такие как изображения, видео и 3D-сцены. Несмотря на прогресс в области визуальных токенизаторов, существуют значительные проблемы, связанные с ограниченной модельной гибкостью и эффективностью. Текущие токенизаторы обычно ограничиваются одной моделью для каждой модальности, что приводит к неэффективности и недостаточной семантической точности при обработке многомодальных входных данных. Это способствует необходимости создания универсальной модели, которая могла бы объединить в себе множество задач и модальностей. #### Метод AToken представляет собой инновационный подход к токенизации, основанный на преобразовательной архитектуре. Он вводит 4D-косинусные позиционные признаки, которые позволяют обрабатывать визуальные данные разных размерностей, включая изображения, видео и 3D-активы. Для обеспечения стабильной обученности и высокого качества реконструкции введена новая структура функций потерь, основанная на перцептивных и грамматических матрицах. Эта модель успешно объединяет задачи реконструкции и семантического понимания в рамках одной системы, обладая универсальной архитектурой, которая может быть применена к разным видам визуальных данных. #### Результаты Работа проводилась на основе различных наборов данных, включая ImageNet для изображений, MSRVTT для видео, а также наборы данных для 3D-активов. Результаты показывают, что AToken достигает необычно высокого качества реконструкции с низким rFID (0.21 для изображений), высокой семантической точностью для видео (32.6% MSRVTT) и высокой PSNR для 3D-данных (28.19). Эти результаты свидетельствуют о возможности модели не только токенизировать, но и эффективно работать в многомодальных задачах, таких как текст-в-видео, текст-в-3D, и даже в обучении многомодальных глубоких сетей. #### Значимость AToken может применяться в различных областях, таких как генерация визуальных данных, многомодальные глубокие сети, а также в области создания многомодальных моделей естественного языка. Оно предоставляет способность для многомодальных моделей обрабатывать визуальные данные с высокой точностью и эффективностью, что значительно расширяет спектр приложений в многомодальном машинном обучении. #### Выводы Работа показывает, что AToken является первым в своем роде универсальным токенизатором, который может обрабатывать визуальные данные различных модальностей. Он подтверждает значимость многомодальных токенизаторов в современных многомодальных системах AI. В будущем, направ

Abstract

We present AToken, the first unified visual tokenizer that achieves both high-fidelity reconstruction and semantic understanding across images, videos, and 3D assets. Unlike existing tokenizers that specialize in either reconstruction or understanding for single modalities, AToken encodes these diverse visual inputs into a shared 4D latent space, unifying both tasks and modalities in a single framework. Specifically, we introduce a pure transformer architecture with 4D rotary position embeddings to process visual inputs of arbitrary resolutions and temporal durations. To ensure stable training, we introduce an adversarial-free training objective that combines perceptual and Gram matrix losses, achieving state-of-the-art reconstruction quality. By employing a progressive training curriculum, AToken gradually expands from single images, videos, and 3D, and supports both continuous and discrete latent tokens. AToken achieves 0.21 rFID with 82.2% ImageNet accuracy for images, 3.01 rFVD with 32.6% MSRVTT retrieval for videos, and 28.19 PSNR with 90.9% classification accuracy for 3D. In downstream applications, AToken enables both visual generation tasks (e.g., image generation with continuous and discrete tokens, text-to-video generation, image-to-3D synthesis) and understanding tasks (e.g., multimodal LLMs), achieving competitive performance across all benchmarks. These results shed light on the next-generation multimodal AI systems built upon unified visual tokenization.

Ссылки и действия