MeanAudio: Fast and Faithful Text-to-Audio Generation with Mean Flows
2508.06098v1
cs.SD, cs.AI
2025-08-12
Авторы:
Xiquan Li, Junxi Liu, Yuzhe Liang, Zhikang Niu, Wenxi Chen, Xie Chen
Резюме на русском
#### Контекст
Современные текст-то-аудио (TTA) системы позволяют генерировать аудио из текста, применяя различные модели, такие как diffusion-based и flow-based. Эти модели достигли высокого качества синтеза аудио и хорошего контроля над процессом. Однако они страдают от значительного замедления в процессе вывода, что существенно ограничивает их практическую применимость. Мотивацией для настоящего исследования является развитие быстрой и точной TTA-системы, которая обладает высокой скоростью вывода и гарантирует качественную генерацию аудио.
#### Метод
MeanAudio — это новая модель, основанная на MeanFlow, разработанная специально для решения проблемы медлительного вывода в TTA. Основой модели является Flux-стильный трансформер, который регрессирует среднюю векторное поле во время обучения. Это позволяет эффективно генерировать аудио, осуществляя прямую траекторию от начала до конца потока. Использование classifier-free guidance (CFG) в обучении не добавляет дополнительных затрат в процессе направленного семплирования. Для улучшения стабильности обучения и развития модели в ранних этапах предложена интуитивная интерпретация с курсивом потока, которая помогает модели усвоить основные динамические характеристики, а затем приспособиться к средним потокам.
#### Результаты
Эксперименты показали, что MeanAudio достигает лидирующей по скорости генерации звука с реальным временем вывода (RTF) в 0,013 на NVIDIA RTX 3090, что является примерно 100 раз быстрее, чем современные diffusion-based TTA-системы. В то же время, модель поддерживает высокое качество генерации в многошаговой синтезе, обеспечивая плавные и гармоничные переходы между последовательными синтезированными участками аудио. Это достигается благодаря проработанной стратегии обучения, которая позволяет модели пройти фазу упрощенного обучения и перейти к более сложному генерированию.
#### Значимость
MeanAudio открывает путь к новому поколению TTA-систем, которые могут быть использованы в реальном времени благодаря их высокой скорости работы. Она применима в области генерирования естественного звука для видео, игр, виртуальных ассистентов и других приложений, где скорость генерации звука критична. Благодаря своей эффективности и качеству, MeanAudio имеет потенциал для широкого применения в индустрии и исследованиях.
#### Выводы
Результаты нашего исследования подтверждают, что MeanAudio является новаторским подходом к TTA-генерации, который обеспечивает высокую скорость вывода и качество генерации. Будущие исследования будут направлены на улучшение точности генерации, расширение скорости вывода на более сложных сценариях и исследование возможностей модели в различных ко
Abstract
Recent developments in diffusion- and flow- based models have significantly
advanced Text-to-Audio Generation (TTA). While achieving great synthesis
quality and controllability, current TTA systems still suffer from slow
inference speed, which significantly limits their practical applicability. This
paper presents MeanAudio, a novel MeanFlow-based model tailored for fast and
faithful text-to-audio generation. Built on a Flux-style latent transformer,
MeanAudio regresses the average velocity field during training, enabling fast
generation by mapping directly from the start to the endpoint of the flow
trajectory. By incorporating classifier-free guidance (CFG) into the training
target, MeanAudio incurs no additional cost in the guided sampling process. To
further stabilize training, we propose an instantaneous-to-mean curriculum with
flow field mix-up, which encourages the model to first learn the foundational
instantaneous dynamics, and then gradually adapt to mean flows. This strategy
proves critical for enhancing training efficiency and generation quality.
Experimental results demonstrate that MeanAudio achieves state-of-the-art
performance in single-step audio generation. Specifically, it achieves a real
time factor (RTF) of 0.013 on a single NVIDIA RTX 3090, yielding a 100x speedup
over SOTA diffusion-based TTA systems. Moreover, MeanAudio also demonstrates
strong performance in multi-step generation, enabling smooth and coherent
transitions across successive synthesis steps.
Ссылки и действия
Дополнительные ресурсы: