MGM-Omni: Scaling Omni LLMs to Personalized Long-Horizon Speech

2509.25131v1 cs.SD, cs.AI, cs.CL, cs.CV, cs.MM 2025-10-01
Авторы:

Chengyao Wang, Zhisheng Zhong, Bohao Peng, Senqiao Yang, Yuqi Liu, Haokun Gui, Bin Xia, Jingyao Li, Bei Yu, Jiaya Jia

Резюме на русском

## Контекст Область исследования, связанная с omni-modal understanding и long-horizon speech generation, является ключевой в современных технологиях синтеза речи и обработки звука. Существующие подходы часто ограничиваются разбиением задачи на отдельные этапы, что приводит к неэффективности и снижению качества результатов. Особенно важной проблемой является способность систем синтезировать длительные и естественные аудиопотоки с целостным звуковым тоном и контекстно-ориентированным содержанием. MGM-Omni предлагает решение этих проблем, сфокусировавшись на создании универсальной модели, которая объединяет мощность многомодального понимания и высококачественного генерирования речи на персонифицированном уровне. Мотивация заключается в развитии системы, которая не только понимает и воспроизводит речь, но также делает это с учётом персонализации и длительных горизонтов. ## Метод MGM-Omni основывается на двойной архитектуре "brain-mouth", где "brain" отвечает за мультимодальное обобщение, а "mouth" за реалистичное генерирование речи. В "brain" входит двухшаговый приём распознавания аудио, включающий в себя двойной аудио-енкодер для обработки длинных аудиопотоков с разными активностями. "Mouth", в свою очередь, использует chunk-based parallel decoding, который существенно ускоряет процесс генерации речи, позволяя её производить потоково, даже при длительных задачах. Этот подход позволяет MGM-Omni обеспечивать эффективное интерактивное взаимодействие между модалами и снижать задержки в реальном времени. Кроме того, система может выполнять voice cloning с точным сохранением голоса, даже в продолжительных сценариях. ## Результаты Эксперименты проводились на специально подготовленных датасетах, включающих длительные аудиопотоки и задачи персонализированного синтеза речи. Модель MGM-Omni показала существенное превосходство по сравнению с другими моделями, особенно в поддержании тональности и естественности речи на длинных потоках. Модель существенно повысила эффективность обучения, используя меньше данных для достижения того же уровня качества, чем свои конкуренты. Она также продемонстрировала высокую точность в voice cloning и может стабильно воспроизводить тональность голоса даже на длительных сегментах. Эти результаты подчёркивают значительное преимущество MGM-Omni в области голосовой синтеза и мультимодального понимания. ## Значимость MGM-Omni открывает новые горизонты в приложениях, требующих естественного и персонализированного голосового синтеза. Она имеет широкие перспективы в области обработки звука, где требуется потоковая синтеза речи с высоким качеством и персонализацией. Эта модель также может применяться в сфере развития сист

Abstract

We present MGM-Omni, a unified Omni LLM for omni-modal understanding and expressive, long-horizon speech generation. Unlike cascaded pipelines that isolate speech synthesis, MGM-Omni adopts a "brain-mouth" design with a dual-track, token-based architecture that cleanly decouples multimodal reasoning from real-time speech generation. This design enables efficient cross-modal interaction and low-latency, streaming speech generation. For understanding, a unified training strategy coupled with a dual audio encoder design enables long-form audio perception across diverse acoustic conditions. For generation, a chunk-based parallel decoding scheme narrows the text speech token-rate gap, accelerating inference and supporting streaming zero-shot voice cloning with stable timbre over extended durations. Compared to concurrent work, MGM-Omni achieves these capabilities with markedly data-efficient training. Extensive experiments demonstrate that MGM-Omni outperforms existing open source models in preserving timbre identity across extended sequences, producing natural and context-aware speech, and achieving superior long-form audio and omnimodal understanding. MGM-Omni establishes an efficient, end-to-end paradigm for omnimodal understanding and controllable, personalised long-horizon speech generation.

Ссылки и действия