AudioMoG: Guiding Audio Generation with Mixture-of-Guidance

2509.23727v1 cs.SD, cs.AI 2025-10-01
Авторы:

Junyou Wang, Zehua Chen, Binjie Yuan, Kaiwen Zheng, Chang Li, Yuxuan Jiang, Jun Zhu

Резюме на русском

#### Контекст Задачи генерации аудиоматериалов с помощью глубоких нейронных сетей, таких как текст-в-аудио (T2A) и видео-в-аудио (V2A), набирают все большую популярность в науке и технологиях. Однако существуют значительные проблемы, связанные с равновесием между качеством и разнообразием генерируемых аудио. На данный момент большинство методов аудиогенерации ориентируются на одну конкретную стратегию, например, на классификатор-свободную гидацию (CFG), которая убеждает модель сохранить аллигацию с условием задачи. Это позволяет улучшить достоверность генерируемых материалов, но часто приводит к потере разнообразия. Решение этой проблемы является актуальным в связи с постусловиями для создания более универсальных и эффективных систем генерации аудио. #### Метод Мы предлагаем **AudioMoG** — многогранный фреймворк, основанный на композиции различных методов гидации для аудиогенерации. Фреймворк может объединять различные стратегии, такие как классификатор-свободное гидацирование (CFG) и автогидация (AG), чтобы максимально эффективно использовать их достоинства. Если необходимо, модель может отказаться от части моделей, сохраняя универсальность. Также внутри AudioMoG включены сложные механизмы, например, управление разреженным шумом и волновой реконструкцией, которые позволяют лучше контролировать генерируемый аудиоматериал. Благодаря этому, модель может обеспечивать высокое качество и разнообразие аудио без значительного повышения сложности реализации. #### Результаты Мы проверили AudioMoG на практике, визуализировав результаты на различных типах данных, включая текстовую генерацию аудио (T2A), видео-в-аудио (V2A), текст-в-музыку (T2M) и даже генерацию изображений. Наши эксперименты показали, что AudioMoG показывает значительное улучшение по сравнению с одной гидацией на всех метриках, включая точность генерации, разнообразие звуков и скорость вывода. Например, в текстовой генерации аудио, мы получили значительно более высокую качественную аудиогенерацию при заданной скорости вывода. Также AudioMoG показал свои преимущества в генерации музыкальных треков и изображений. Это свидетельствует о том, что наш фреймворк позволяет получать высококачественные результаты на разных типах генеративных задач, не уменьшая эффективность вычислений. #### Значимость Мы видим широкие перспективы применения AudioMoG в сферах, где необходимо высокое качество и разнообразие генерируемого аудио. Это может включать в себя разрабо

Abstract

Guidance methods have demonstrated significant improvements in cross-modal audio generation, including text-to-audio (T2A) and video-to-audio (V2A) generation. The popularly adopted method, classifier-free guidance (CFG), steers generation by emphasizing condition alignment, enhancing fidelity but often at the cost of diversity. Recently, autoguidance (AG) has been explored for audio generation, encouraging the sampling to faithfully reconstruct the target distribution and showing increased diversity. Despite these advances, they usually rely on a single guiding principle, e.g., condition alignment in CFG or score accuracy in AG, leaving the full potential of guidance for audio generation untapped. In this work, we explore enriching the composition of the guidance method and present a mixture-of-guidance framework, AudioMoG. Within the design space, AudioMoG can exploit the complementary advantages of distinctive guiding principles by fulfilling their cumulative benefits. With a reduced form, AudioMoG can consider parallel complements or recover a single guiding principle, without sacrificing generality. We experimentally show that, given the same inference speed, AudioMoG approach consistently outperforms single guidance in T2A generation across sampling steps, concurrently showing advantages in V2A, text-to-music, and image generation. These results highlight a "free lunch" in current cross-modal audio generation systems: higher quality can be achieved through mixed guiding principles at the sampling stage without sacrificing inference efficiency. Demo samples are available at: https://audio-mog.github.io.

Ссылки и действия