Qwen3-Omni Technical Report

2509.17765v1 cs.CL, cs.AI, cs.CV, eess.AS 2025-09-24
Авторы:

Jin Xu, Zhifang Guo, Hangrui Hu, Yunfei Chu, Xiong Wang, Jinzheng He, Yuxuan Wang, Xian Shi, Ting He, Xinfa Zhu, Yuanjun Lv, Yongqi Wang, Dake Guo, He Wang, Linhan Ma, Pei Zhang, Xinyu Zhang, Hongkun Hao, Zishan Guo, Baosong Yang, Bin Zhang, Ziyang Ma, Xipin Wei, Shuai Bai, Keqin Chen, Xuejing Liu, Peng Wang, Mingkun Yang, Dayiheng Liu, Xingzhang Ren, Bo Zheng, Rui Men, Fan Zhou, Bowen Yu, Jianxin Yang, Le Yu, Jingren Zhou, Junyang Lin

Резюме на русском

## Контекст В последние годы наблюдается устойчивое развитие моделей глубокого обучения, обладающих многомодальностью. Эти модели способны обрабатывать и взаимодействовать с различными типами данных, такими как текст, изображения, звук и видео. Однако существуют значительные проблемы в области моделей многомодальности, включая ухудшение качества решения задач при увеличении количества модалей, неэффективность архитектур и недостаточное доступность научной информации. Эти факторы способствуют сложностям в реализации многомодальных решений, что приводит к необходимости в разработке более мощных и эффективных моделей. ## Метод Qwen3-Omni представляет собой модель многомодальности с одним контекстом, которая обеспечивает согласованное выполнение задач над различными типами данных. Метод основывается на архитектуре Thinker-Talker Model of Experts (MoE), которая объединяет функции представления и генерации для разных модалей. Модель имеет 30 миллиардов параметров и поддерживает текстовую работу на 119 языках, распознавание речи на 19 языках и генерацию речи на 10 языках. Для улучшения производительности в стриминговой синтезе речи Talker-авторегрессионно предсказывает дискретные кодеки с помощью многокодекового подхода. Эта модель также включает в себя новую модель Thinking, которая активно рассматривает входные данные из любой модалии, что позволяет улучшить многомодальное разумение. ## Результаты Исследования были проведены на 36 аудио- и аудио-видеонаборах, где Qwen3-Omni достигла лучших результатов среди открытых моделей и установила собственные рекорды. Она превзошла модели как открытых, так и закрытых, включая Gemini-2.5-Pro, Seed-ASR и GPT-4o-Transcribe. Модель также показала более высокие результаты в обработке звука и видео, в том числе в задачах аудио-капшнинга, где Qwen3-Omni-30B-A3B-Captioner обеспечивает масштабируемые и точные подробные подробные подробные подробные подробные подробные подробные подробные подробные подробные подробные подробные подробные подробные подробные подробные подробные подробные подробные подробные подробные подробные подробные подробные подробные подробные подробные подробные подробные подробные подробные подробные подробные подробные подробные подробные подробные подробные подробные подробные подробные подробные подробные подробные подробные подробные подробные подробные подробные подробные подробные подробные подробные подробные подробные подробные подробные подробные подробные подробные подробные подробные подробные подробные подробные подробные подробные подробные подробные подробные подробные подробные подробные подробные подробные подробные подробные подробные подробные подробные подробные подробные подробные

Abstract

We present Qwen3-Omni, a single multimodal model that, for the first time, maintains state-of-the-art performance across text, image, audio, and video without any degradation relative to single-modal counterparts. Qwen3-Omni matches the performance of same-sized single-modal models within the Qwen series and excels particularly on audio tasks. Across 36 audio and audio-visual benchmarks, Qwen3-Omni achieves open-source SOTA on 32 benchmarks and overall SOTA on 22, outperforming strong closed-source models such as Gemini-2.5-Pro, Seed-ASR, and GPT-4o-Transcribe. Qwen3-Omni adopts a Thinker-Talker MoE architecture that unifies perception and generation across text, images, audio, and video, yielding fluent text and natural real-time speech. It supports text interaction in 119 languages, speech understanding in 19 languages, and speech generation in 10 languages. To reduce first-packet latency in streaming synthesis, Talker autoregressively predicts discrete speech codecs using a multi-codebook scheme. Leveraging the representational capacity of these codebooks, we replace computationally intensive block-wise diffusion with a lightweight causal ConvNet, enabling streaming from the first codec frame. In cold-start settings, Qwen3-Omni achieves a theoretical end-to-end first-packet latency of 234 ms. To further strengthen multimodal reasoning, we introduce a Thinking model that explicitly reasons over inputs from any modality. Since the research community currently lacks a general-purpose audio captioning model, we fine-tuned Qwen3-Omni-30B-A3B to obtain Qwen3-Omni-30B-A3B-Captioner, which produces detailed, low-hallucination captions for arbitrary audio inputs. Qwen3-Omni-30B-A3B, Qwen3-Omni-30B-A3B-Thinking, and Qwen3-Omni-30B-A3B-Captioner are publicly released under the Apache 2.0 license.

Ссылки и действия