📊 Статистика дайджестов
Всего дайджестов: 34022 Добавлено сегодня: 82
Последнее обновление: сегодня
Авторы:
Chengyao Wang, Zhisheng Zhong, Bohao Peng, Senqiao Yang, Yuqi Liu, Haokun Gui, Bin Xia, Jingyao Li, Bei Yu, Jiaya Jia
## Контекст
Область исследования, связанная с omni-modal understanding и long-horizon speech generation, является ключевой в современных технологиях синтеза речи и обработки звука. Существующие подходы часто ограничиваются разбиением задачи на отдельные этапы, что приводит к неэффективности и снижению качества результатов. Особенно важной проблемой является способность систем синтезировать длительные и естественные аудиопотоки с целостным звуковым тоном и контекстно-ориентированным содержанием. MGM-Omni предлагает решение этих проблем, сфокусировавшись на создании универсальной модели, которая объединяет мощность многомодального понимания и высококачественного генерирования речи на персонифицированном уровне. Мотивация заключается в развитии системы, которая не только понимает и воспроизводит речь, но также делает это с учётом персонализации и длительных горизонтов.
## Метод
MGM-Omni основывается на двойной архитектуре "brain-mouth", где "brain" отвечает за мультимодальное обобщение, а "mouth" за реалистичное генерирование речи. В "brain" входит двухшаговый приём распознавания аудио, включающий в себя двойной аудио-енкодер для обработки длинных аудиопотоков с разными активностями. "Mouth", в свою очередь, использует chunk-based parallel decoding, который существенно ускоряет процесс генерации речи, позволяя её производить потоково, даже при длительных задачах. Этот подход позволяет MGM-Omni обеспечивать эффективное интерактивное взаимодействие между модалами и снижать задержки в реальном времени. Кроме того, система может выполнять voice cloning с точным сохранением голоса, даже в продолжительных сценариях.
## Результаты
Эксперименты проводились на специально подготовленных датасетах, включающих длительные аудиопотоки и задачи персонализированного синтеза речи. Модель MGM-Omni показала существенное превосходство по сравнению с другими моделями, особенно в поддержании тональности и естественности речи на длинных потоках. Модель существенно повысила эффективность обучения, используя меньше данных для достижения того же уровня качества, чем свои конкуренты. Она также продемонстрировала высокую точность в voice cloning и может стабильно воспроизводить тональность голоса даже на длительных сегментах. Эти результаты подчёркивают значительное преимущество MGM-Omni в области голосовой синтеза и мультимодального понимания.
## Значимость
MGM-Omni открывает новые горизонты в приложениях, требующих естественного и персонализированного голосового синтеза. Она имеет широкие перспективы в области обработки звука, где требуется потоковая синтеза речи с высоким качеством и персонализацией. Эта модель также может применяться в сфере развития сист
Annotation:
We present MGM-Omni, a unified Omni LLM for omni-modal understanding and
expressive, long-horizon speech generation. Unlike cascaded pipelines that
isolate speech synthesis, MGM-Omni adopts a "brain-mouth" design with a
dual-track, token-based architecture that cleanly decouples multimodal
reasoning from real-time speech generation. This design enables efficient
cross-modal interaction and low-latency, streaming speech generation. For
understanding, a unified training strategy coupled with a dua...