Mitigating data replication in text-to-audio generative diffusion models through anti-memorization guidance
2509.14934v1
eess.AS, cs.LG, cs.SD, eess.SP
2025-09-20
Авторы:
Francisco Messina, Francesca Ronchini, Luca Comanducci, Paolo Bestagini, Fabio Antonacci
Резюме на русском
#### Контекст
Генерирующие модели звука, основанные на технологии текст-то-аудио, набирают популярность в сферах, где требуется высококачественная генерация аудиоконтента. Однако существует значимое техническое тревожное явление — дублирование данных (data replication), когда модель в процессе инференса генерирует части своего обучающего набора. Это сокращает разнообразие сгенерированных аудиофайлов и подрывает доверие пользователей. Эта проблема требует решения, особенно в свете возрастающего интереса к генерирующим моделям звука для профессиональных и широкого круга потребителей.
#### Метод
В данной работе мы предлагаем **Anti-Memorization Guidance (AMG)** — метод, который изменяет процесс выбора сэмплов во время обучения и инференса звуковой диффузионной модели. Наша модель основывается на Stable Audio Open — открытой инфраструктуре с открытым набором данных. Мы используем три различных стратегии внутри AMG: **Noise Guidance**, **Spatial Guidance** и **Temporal Guidance**, каждая из которых призвана уменьшить дублирование звука, сохранив качество и семантическую корректность генерируемых аудиофайлов. Эти стратегии позволяют гармонично оптимизировать процесс генерации, предотвращая нежелательное дублирование.
#### Результаты
Мы провели эксперименты, сравнивая наши результаты с базовой моделью и другими подходами к уменьшению дублирования. Результаты показали, что AMG существенно понижает уровень дублирования без ухудшения генерируемого звука. Наши эксперименты также подтвердили, что ни одна из стратегий не вызывает снижения качества аудиофайлов или потери семантического содержания. Таким образом, AMG демонстрирует свое эффективность в борьбе с дублированием в текст-то-аудио моделях, оставаясь близко к качеству исходной модели Stable Audio Open.
#### Значимость
Возможности AMG распространяются на различные сферы, включая создание подкастов, интерактивные приложения, и реалистичный звуковой контент для видеоигр. Этот подход позволяет повысить уровень доверия пользователей к генерируемым моделям звука, устраняя проблему дублирования, которая может испортить впечатление от слушания. Это существенно повышает качество и широту применения текст-то-аудио моделей в цифровой сфере.
#### Выводы
В результате нашего исследования, мы установили, что **Anti-Memorization Guidance (AMG)** является эффективным способом минимизировать дублирование звука в текст-то-аудио генерирующих моделях. Эту технологию можно использовать для улучшения качества генерируемого контента и увеличения удовлетворенности пользователей. В будущем, мы планируем расширить наш подход на другие
Abstract
A persistent challenge in generative audio models is data replication, where
the model unintentionally generates parts of its training data during
inference. In this work, we address this issue in text-to-audio diffusion
models by exploring the use of anti-memorization strategies. We adopt
Anti-Memorization Guidance (AMG), a technique that modifies the sampling
process of pre-trained diffusion models to discourage memorization. Our study
explores three types of guidance within AMG, each designed to reduce
replication while preserving generation quality. We use Stable Audio Open as
our backbone, leveraging its fully open-source architecture and training
dataset. Our comprehensive experimental analysis suggests that AMG
significantly mitigates memorization in diffusion-based text-to-audio
generation without compromising audio fidelity or semantic alignment.