MeanAudio: Fast and Faithful Text-to-Audio Generation with Mean Flows

2508.06098v1 cs.SD, cs.AI 2025-08-12

Авторы:

Xiquan Li, Junxi Liu, Yuzhe Liang, Zhikang Niu, Wenxi Chen, Xie Chen

Резюме на русском

#### Контекст Современные текст-то-аудио (TTA) системы позволяют генерировать аудио из текста, применяя различные модели, такие как diffusion-based и flow-based. Эти модели достигли высокого качества синтеза аудио и хорошего контроля над процессом. Однако они страдают от значительного замедления в процессе вывода, что существенно ограничивает их практическую применимость. Мотивацией для настоящего исследования является развитие быстрой и точной TTA-системы, которая обладает высокой скоростью вывода и гарантирует качественную генерацию аудио. #### Метод MeanAudio — это новая модель, основанная на MeanFlow, разработанная специально для решения проблемы медлительного вывода в TTA. Основой модели является Flux-стильный трансформер, который регрессирует среднюю векторное поле во время обучения. Это позволяет эффективно генерировать аудио, осуществляя прямую траекторию от начала до конца потока. Использование classifier-free guidance (CFG) в обучении не добавляет дополнительных затрат в процессе направленного семплирования. Для улучшения стабильности обучения и развития модели в ранних этапах предложена интуитивная интерпретация с курсивом потока, которая помогает модели усвоить основные динамические характеристики, а затем приспособиться к средним потокам. #### Результаты Эксперименты показали, что MeanAudio достигает лидирующей по скорости генерации звука с реальным временем вывода (RTF) в 0,013 на NVIDIA RTX 3090, что является примерно 100 раз быстрее, чем современные diffusion-based TTA-системы. В то же время, модель поддерживает высокое качество генерации в многошаговой синтезе, обеспечивая плавные и гармоничные переходы между последовательными синтезированными участками аудио. Это достигается благодаря проработанной стратегии обучения, которая позволяет модели пройти фазу упрощенного обучения и перейти к более сложному генерированию. #### Значимость MeanAudio открывает путь к новому поколению TTA-систем, которые могут быть использованы в реальном времени благодаря их высокой скорости работы. Она применима в области генерирования естественного звука для видео, игр, виртуальных ассистентов и других приложений, где скорость генерации звука критична. Благодаря своей эффективности и качеству, MeanAudio имеет потенциал для широкого применения в индустрии и исследованиях. #### Выводы Результаты нашего исследования подтверждают, что MeanAudio является новаторским подходом к TTA-генерации, который обеспечивает высокую скорость вывода и качество генерации. Будущие исследования будут направлены на улучшение точности генерации, расширение скорости вывода на более сложных сценариях и исследование возможностей модели в различных ко

Abstract

Recent developments in diffusion- and flow- based models have significantly advanced Text-to-Audio Generation (TTA). While achieving great synthesis quality and controllability, current TTA systems still suffer from slow inference speed, which significantly limits their practical applicability. This paper presents MeanAudio, a novel MeanFlow-based model tailored for fast and faithful text-to-audio generation. Built on a Flux-style latent transformer, MeanAudio regresses the average velocity field during training, enabling fast generation by mapping directly from the start to the endpoint of the flow trajectory. By incorporating classifier-free guidance (CFG) into the training target, MeanAudio incurs no additional cost in the guided sampling process. To further stabilize training, we propose an instantaneous-to-mean curriculum with flow field mix-up, which encourages the model to first learn the foundational instantaneous dynamics, and then gradually adapt to mean flows. This strategy proves critical for enhancing training efficiency and generation quality. Experimental results demonstrate that MeanAudio achieves state-of-the-art performance in single-step audio generation. Specifically, it achieves a real time factor (RTF) of 0.013 on a single NVIDIA RTX 3090, yielding a 100x speedup over SOTA diffusion-based TTA systems. Moreover, MeanAudio also demonstrates strong performance in multi-step generation, enabling smooth and coherent transitions across successive synthesis steps.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

MeanAudio: Fast and Faithful Text-to-Audio Generation with Mean Flows

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Large Speech Model Enabled Semantic Communication

YingMusic-Singer: Zero-shot Singing Voice Synthesis and Editing with Annotation-...

YingMusic-SVC: Real-World Robust Zero-Shot Singing Voice Conversion with Flow-GR...

Language Models as Semantic Teachers: Post-Training Alignment for Medical Audio ...

State Space Models for Bioacoustics: A comparative Evaluation with Transformers

Навигация