Mitigating data replication in text-to-audio generative diffusion models through anti-memorization guidance

2509.14934v1 eess.AS, cs.LG, cs.SD, eess.SP 2025-09-20

Авторы:

Francisco Messina, Francesca Ronchini, Luca Comanducci, Paolo Bestagini, Fabio Antonacci

Резюме на русском

#### Контекст Генерирующие модели звука, основанные на технологии текст-то-аудио, набирают популярность в сферах, где требуется высококачественная генерация аудиоконтента. Однако существует значимое техническое тревожное явление — дублирование данных (data replication), когда модель в процессе инференса генерирует части своего обучающего набора. Это сокращает разнообразие сгенерированных аудиофайлов и подрывает доверие пользователей. Эта проблема требует решения, особенно в свете возрастающего интереса к генерирующим моделям звука для профессиональных и широкого круга потребителей. #### Метод В данной работе мы предлагаем **Anti-Memorization Guidance (AMG)** — метод, который изменяет процесс выбора сэмплов во время обучения и инференса звуковой диффузионной модели. Наша модель основывается на Stable Audio Open — открытой инфраструктуре с открытым набором данных. Мы используем три различных стратегии внутри AMG: **Noise Guidance**, **Spatial Guidance** и **Temporal Guidance**, каждая из которых призвана уменьшить дублирование звука, сохранив качество и семантическую корректность генерируемых аудиофайлов. Эти стратегии позволяют гармонично оптимизировать процесс генерации, предотвращая нежелательное дублирование. #### Результаты Мы провели эксперименты, сравнивая наши результаты с базовой моделью и другими подходами к уменьшению дублирования. Результаты показали, что AMG существенно понижает уровень дублирования без ухудшения генерируемого звука. Наши эксперименты также подтвердили, что ни одна из стратегий не вызывает снижения качества аудиофайлов или потери семантического содержания. Таким образом, AMG демонстрирует свое эффективность в борьбе с дублированием в текст-то-аудио моделях, оставаясь близко к качеству исходной модели Stable Audio Open. #### Значимость Возможности AMG распространяются на различные сферы, включая создание подкастов, интерактивные приложения, и реалистичный звуковой контент для видеоигр. Этот подход позволяет повысить уровень доверия пользователей к генерируемым моделям звука, устраняя проблему дублирования, которая может испортить впечатление от слушания. Это существенно повышает качество и широту применения текст-то-аудио моделей в цифровой сфере. #### Выводы В результате нашего исследования, мы установили, что **Anti-Memorization Guidance (AMG)** является эффективным способом минимизировать дублирование звука в текст-то-аудио генерирующих моделях. Эту технологию можно использовать для улучшения качества генерируемого контента и увеличения удовлетворенности пользователей. В будущем, мы планируем расширить наш подход на другие

Abstract

A persistent challenge in generative audio models is data replication, where the model unintentionally generates parts of its training data during inference. In this work, we address this issue in text-to-audio diffusion models by exploring the use of anti-memorization strategies. We adopt Anti-Memorization Guidance (AMG), a technique that modifies the sampling process of pre-trained diffusion models to discourage memorization. Our study explores three types of guidance within AMG, each designed to reduce replication while preserving generation quality. We use Stable Audio Open as our backbone, leveraging its fully open-source architecture and training dataset. Our comprehensive experimental analysis suggests that AMG significantly mitigates memorization in diffusion-based text-to-audio generation without compromising audio fidelity or semantic alignment.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Mitigating data replication in text-to-audio generative diffusion models through anti-memorization guidance

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Real-Time Streaming Mel Vocoding with Generative Flow Matching

Lightweight DNN for Full-Band Speech Denoising on Mobile Devices: Exploiting Lon...

Навигация