AToken: A Unified Tokenizer for Vision
2509.14476v1
cs.CV, cs.AI, cs.MM
2025-09-20
Авторы:
Jiasen Lu, Liangchen Song, Mingze Xu, Byeongjoo Ahn, Yanjun Wang, Chen Chen, Afshin Dehghan, Yinfei Yang
Резюме на русском
#### Контекст
Актуальность исследования возрастает в условиях развития многомодальных систем, которым требуется обрабатывать разнообразные визуальные данные, такие как изображения, видео и 3D-сцены. Несмотря на прогресс в области визуальных токенизаторов, существуют значительные проблемы, связанные с ограниченной модельной гибкостью и эффективностью. Текущие токенизаторы обычно ограничиваются одной моделью для каждой модальности, что приводит к неэффективности и недостаточной семантической точности при обработке многомодальных входных данных. Это способствует необходимости создания универсальной модели, которая могла бы объединить в себе множество задач и модальностей.
#### Метод
AToken представляет собой инновационный подход к токенизации, основанный на преобразовательной архитектуре. Он вводит 4D-косинусные позиционные признаки, которые позволяют обрабатывать визуальные данные разных размерностей, включая изображения, видео и 3D-активы. Для обеспечения стабильной обученности и высокого качества реконструкции введена новая структура функций потерь, основанная на перцептивных и грамматических матрицах. Эта модель успешно объединяет задачи реконструкции и семантического понимания в рамках одной системы, обладая универсальной архитектурой, которая может быть применена к разным видам визуальных данных.
#### Результаты
Работа проводилась на основе различных наборов данных, включая ImageNet для изображений, MSRVTT для видео, а также наборы данных для 3D-активов. Результаты показывают, что AToken достигает необычно высокого качества реконструкции с низким rFID (0.21 для изображений), высокой семантической точностью для видео (32.6% MSRVTT) и высокой PSNR для 3D-данных (28.19). Эти результаты свидетельствуют о возможности модели не только токенизировать, но и эффективно работать в многомодальных задачах, таких как текст-в-видео, текст-в-3D, и даже в обучении многомодальных глубоких сетей.
#### Значимость
AToken может применяться в различных областях, таких как генерация визуальных данных, многомодальные глубокие сети, а также в области создания многомодальных моделей естественного языка. Оно предоставляет способность для многомодальных моделей обрабатывать визуальные данные с высокой точностью и эффективностью, что значительно расширяет спектр приложений в многомодальном машинном обучении.
#### Выводы
Работа показывает, что AToken является первым в своем роде универсальным токенизатором, который может обрабатывать визуальные данные различных модальностей. Он подтверждает значимость многомодальных токенизаторов в современных многомодальных системах AI. В будущем, направ
Abstract
We present AToken, the first unified visual tokenizer that achieves both
high-fidelity reconstruction and semantic understanding across images, videos,
and 3D assets. Unlike existing tokenizers that specialize in either
reconstruction or understanding for single modalities, AToken encodes these
diverse visual inputs into a shared 4D latent space, unifying both tasks and
modalities in a single framework. Specifically, we introduce a pure transformer
architecture with 4D rotary position embeddings to process visual inputs of
arbitrary resolutions and temporal durations. To ensure stable training, we
introduce an adversarial-free training objective that combines perceptual and
Gram matrix losses, achieving state-of-the-art reconstruction quality. By
employing a progressive training curriculum, AToken gradually expands from
single images, videos, and 3D, and supports both continuous and discrete latent
tokens. AToken achieves 0.21 rFID with 82.2% ImageNet accuracy for images, 3.01
rFVD with 32.6% MSRVTT retrieval for videos, and 28.19 PSNR with 90.9%
classification accuracy for 3D. In downstream applications, AToken enables both
visual generation tasks (e.g., image generation with continuous and discrete
tokens, text-to-video generation, image-to-3D synthesis) and understanding
tasks (e.g., multimodal LLMs), achieving competitive performance across all
benchmarks. These results shed light on the next-generation multimodal AI
systems built upon unified visual tokenization.
Ссылки и действия
Дополнительные ресурсы: