AudioMoG: Guiding Audio Generation with Mixture-of-Guidance
2509.23727v1
cs.SD, cs.AI
2025-10-01
Авторы:
Junyou Wang, Zehua Chen, Binjie Yuan, Kaiwen Zheng, Chang Li, Yuxuan Jiang, Jun Zhu
Резюме на русском
#### Контекст
Задачи генерации аудиоматериалов с помощью глубоких нейронных сетей, таких как текст-в-аудио (T2A) и видео-в-аудио (V2A), набирают все большую популярность в науке и технологиях. Однако существуют значительные проблемы, связанные с равновесием между качеством и разнообразием генерируемых аудио. На данный момент большинство методов аудиогенерации ориентируются на одну конкретную стратегию, например, на классификатор-свободную гидацию (CFG), которая убеждает модель сохранить аллигацию с условием задачи. Это позволяет улучшить достоверность генерируемых материалов, но часто приводит к потере разнообразия. Решение этой проблемы является актуальным в связи с постусловиями для создания более универсальных и эффективных систем генерации аудио.
#### Метод
Мы предлагаем **AudioMoG** — многогранный фреймворк, основанный на композиции различных методов гидации для аудиогенерации. Фреймворк может объединять различные стратегии, такие как классификатор-свободное гидацирование (CFG) и автогидация (AG), чтобы максимально эффективно использовать их достоинства. Если необходимо, модель может отказаться от части моделей, сохраняя универсальность. Также внутри AudioMoG включены сложные механизмы, например, управление разреженным шумом и волновой реконструкцией, которые позволяют лучше контролировать генерируемый аудиоматериал. Благодаря этому, модель может обеспечивать высокое качество и разнообразие аудио без значительного повышения сложности реализации.
#### Результаты
Мы проверили AudioMoG на практике, визуализировав результаты на различных типах данных, включая текстовую генерацию аудио (T2A), видео-в-аудио (V2A), текст-в-музыку (T2M) и даже генерацию изображений. Наши эксперименты показали, что AudioMoG показывает значительное улучшение по сравнению с одной гидацией на всех метриках, включая точность генерации, разнообразие звуков и скорость вывода. Например, в текстовой генерации аудио, мы получили значительно более высокую качественную аудиогенерацию при заданной скорости вывода. Также AudioMoG показал свои преимущества в генерации музыкальных треков и изображений. Это свидетельствует о том, что наш фреймворк позволяет получать высококачественные результаты на разных типах генеративных задач, не уменьшая эффективность вычислений.
#### Значимость
Мы видим широкие перспективы применения AudioMoG в сферах, где необходимо высокое качество и разнообразие генерируемого аудио. Это может включать в себя разрабо
Abstract
Guidance methods have demonstrated significant improvements in cross-modal
audio generation, including text-to-audio (T2A) and video-to-audio (V2A)
generation. The popularly adopted method, classifier-free guidance (CFG),
steers generation by emphasizing condition alignment, enhancing fidelity but
often at the cost of diversity. Recently, autoguidance (AG) has been explored
for audio generation, encouraging the sampling to faithfully reconstruct the
target distribution and showing increased diversity. Despite these advances,
they usually rely on a single guiding principle, e.g., condition alignment in
CFG or score accuracy in AG, leaving the full potential of guidance for audio
generation untapped. In this work, we explore enriching the composition of the
guidance method and present a mixture-of-guidance framework, AudioMoG. Within
the design space, AudioMoG can exploit the complementary advantages of
distinctive guiding principles by fulfilling their cumulative benefits. With a
reduced form, AudioMoG can consider parallel complements or recover a single
guiding principle, without sacrificing generality. We experimentally show that,
given the same inference speed, AudioMoG approach consistently outperforms
single guidance in T2A generation across sampling steps, concurrently showing
advantages in V2A, text-to-music, and image generation. These results highlight
a "free lunch" in current cross-modal audio generation systems: higher quality
can be achieved through mixed guiding principles at the sampling stage without
sacrificing inference efficiency. Demo samples are available at:
https://audio-mog.github.io.
Ссылки и действия
Дополнительные ресурсы: