📊 Статистика дайджестов

Всего дайджестов: 34607 Добавлено сегодня: 484

Последнее обновление: сегодня
Авторы:

Francisco Messina, Francesca Ronchini, Luca Comanducci, Paolo Bestagini, Fabio Antonacci

#### Контекст Генерирующие модели звука, основанные на технологии текст-то-аудио, набирают популярность в сферах, где требуется высококачественная генерация аудиоконтента. Однако существует значимое техническое тревожное явление — дублирование данных (data replication), когда модель в процессе инференса генерирует части своего обучающего набора. Это сокращает разнообразие сгенерированных аудиофайлов и подрывает доверие пользователей. Эта проблема требует решения, особенно в свете возрастающего интереса к генерирующим моделям звука для профессиональных и широкого круга потребителей. #### Метод В данной работе мы предлагаем **Anti-Memorization Guidance (AMG)** — метод, который изменяет процесс выбора сэмплов во время обучения и инференса звуковой диффузионной модели. Наша модель основывается на Stable Audio Open — открытой инфраструктуре с открытым набором данных. Мы используем три различных стратегии внутри AMG: **Noise Guidance**, **Spatial Guidance** и **Temporal Guidance**, каждая из которых призвана уменьшить дублирование звука, сохранив качество и семантическую корректность генерируемых аудиофайлов. Эти стратегии позволяют гармонично оптимизировать процесс генерации, предотвращая нежелательное дублирование. #### Результаты Мы провели эксперименты, сравнивая наши результаты с базовой моделью и другими подходами к уменьшению дублирования. Результаты показали, что AMG существенно понижает уровень дублирования без ухудшения генерируемого звука. Наши эксперименты также подтвердили, что ни одна из стратегий не вызывает снижения качества аудиофайлов или потери семантического содержания. Таким образом, AMG демонстрирует свое эффективность в борьбе с дублированием в текст-то-аудио моделях, оставаясь близко к качеству исходной модели Stable Audio Open. #### Значимость Возможности AMG распространяются на различные сферы, включая создание подкастов, интерактивные приложения, и реалистичный звуковой контент для видеоигр. Этот подход позволяет повысить уровень доверия пользователей к генерируемым моделям звука, устраняя проблему дублирования, которая может испортить впечатление от слушания. Это существенно повышает качество и широту применения текст-то-аудио моделей в цифровой сфере. #### Выводы В результате нашего исследования, мы установили, что **Anti-Memorization Guidance (AMG)** является эффективным способом минимизировать дублирование звука в текст-то-аудио генерирующих моделях. Эту технологию можно использовать для улучшения качества генерируемого контента и увеличения удовлетворенности пользователей. В будущем, мы планируем расширить наш подход на другие
Annotation:
A persistent challenge in generative audio models is data replication, where the model unintentionally generates parts of its training data during inference. In this work, we address this issue in text-to-audio diffusion models by exploring the use of anti-memorization strategies. We adopt Anti-Memorization Guidance (AMG), a technique that modifies the sampling process of pre-trained diffusion models to discourage memorization. Our study explores three types of guidance within AMG, each designed...
ID: 2509.14934v1 eess.AS, cs.LG, cs.SD, eess.SP
Авторы:

Simon Welker, Tal Peer, Timo Gerkmann

## Контекст Метод Mel vocoding, или восстановление аудиогруппы из Mel-магнитудного спектрограммы, является важной задачей в развитии систем текстовой речи (TTS). Несмотря на то, что существуют существующие подходы, такие как HiFi-GAN, они не подходят для реального времени из-за высокой обработки данных. Эта проблема особенно актуальна для текстовой речи, где необходимы короткие временные задержки (latency) для обеспечения естественного звучания. Наша работа нацелена на разработку модели, которая не только воспроизводит звук с высокой скоростью, но и обладает низкой задержкой для реального времени, чтобы создать естественный и качественный голос. ## Метод Мы предлагаем MelFlow, модель, основанную на технологии generative flow matching, которая работает в режиме потоковой передачи и обеспечивает значительно более низкую задержку. Модель использует алгоритм DiffPhase для восстановления фазовой информации и псевдоинверсную операцию Mel filterbank для Mel-магнитудного спектрограммы. Это позволяет достичь низкой задержки в 32 мс с обработкой 16 кГц. Мы строим нашу модель на основе глубоких нейронных сетей, используя архитектуру генеративных сетей, которая может обрабатывать аудио с меньшей задержкой в реальном времени. ## Результаты Мы проводили эксперименты с различными данными, включая реальное аудио, и сравнили результаты с другими моделями. Наши результаты показали, что MelFlow не только достигает низкой задержки, но и показывает значительно лучшие результаты по метрикам PESQ и SI-SDR по сравнению с HiFi-GAN и другими моделями. Эти результаты подтверждают эффективность нашей модели в реальном времени и её высокое качество аудиовоспроизведения. ## Значимость Мы видим широкие возможности применения MelFlow в различных областях, включая текстовую речь и синтез голоса, где требуется высокая скорость и качество. Наша модель может применяться в системах TTS, виртуальных помощниках и играх. Основное преимущество заключается в низкой задержке и высоком качестве звука, что делает её более эффективной по сравнению с доступными альтернативами. Мы считаем, что наш подход может повлиять на развитие технологий голосового синтеза и естественного аудио-процессинга. ## Выводы Мы разработали MelFlow, модель, которая не только обеспечивает реальное время, но и показывает высокое качество звука. В дальнейшем, мы планируем расширить функциональность модели и провести дополнительные эксперименты для повышения её точности и скорости. Мы также планируем применить её в различных приложениях, чтобы продемонстрировать её практическую значимость и потенциал в текстовой речи и синтезе голоса.
Annotation:
The task of Mel vocoding, i.e., the inversion of a Mel magnitude spectrogram to an audio waveform, is still a key component in many text-to-speech (TTS) systems today. Based on generative flow matching, our prior work on generative STFT phase retrieval (DiffPhase), and the pseudoinverse operator of the Mel filterbank, we develop MelFlow, a streaming-capable generative Mel vocoder for speech sampled at 16 kHz with an algorithmic latency of only 32 ms and a total latency of 48 ms. We show real-tim...
ID: 2509.15085v1 eess.AS, cs.LG, cs.SD, eess.SP
Авторы:

Konstantinos Drossos, Mikko Heikkinen, Paschalis Tsiaflakis

#### Контекст Звуковое очищение (speech denoising, SD) является важной задачей для многих современных сигнальных обработчиков, используемых в устройствах для повседневных целей. Несмотря на то, что существует много DNN-based методов для SD, большинство из них не предназначены для быстродействия на ресурсно-ограниченных платформах, таких как мобильные устройства. Более того, немногие из этих методов сосредоточены на обработке полнополосных (full-band, FB) сигналов с высокой частотой дискретизации (48 кГц) или требуют низкой задержки. Этот труд подробно рассматривает разработку легковесного DNN-based метода для FB SD, который эффективно использует как короткие, так и длинные временные зависимости в сигнале и его оценке. #### Метод Метод основывается на модифицированной архитектуре UNet, которая включает в себя look-back frames, расширенные как вдоль, так и поперёк окна звукового сигнала. Архитектура также включает инвертированные бутленки (inverted bottlenecks), имитирующие MobileNet, каскадные сверточные сети с рекуррентными нейронными сетями (RNN) для обработки длинных и коротких временных зависимостей. Учитывая природу SD в режиме реального времени, метод работает кадрово (frame-by-frame) и использует STFT-матрицу звука в качестве входного параметра. Для нормализации каналов применяется каскадная инстансная нормализация (causal instance normalization). Результатом модели является рекуррентная оценка маски дезинформации, используемой для очистки звукового сигнала. #### Результаты Для проверки разработанного метода использовались различные спектрограммы (STFT) с полнополостными сигналами (48 кГц) из открытых источников данных. Оптимизированная модель показала высокую эффективность, достигая значительного улучшения в метриках (SI-)SDR по сравнению с другими методами FB SD с низкой задержкой. Эти результаты достигнуты благодаря интеграции как коротких, так и длинных временных зависимостей, а также благодаря оптимизации архитектуры с учетом ресурсов реального времени. #### Значимость Разработанный метод имеет широкие применения в области обработки звука, включая мобильные устройства, смарт-гаджеты и устройства с ограниченными ресурсами. Он эффективно решает проблему SD в режиме реального времени, при оптимальном балансе между качеством и скоростью. Это делает его привлекательным для многих приложений, таких как голосовые помощники, системы отчёта слов и устройства связи на мобильных платформах. Благодаря использованию легковесной архитектуры, метод обеспечивает низкую задержку и высокую эффективость, делая его оптимальным выбором для мобильных приложений. #### Выводы Выполн
Annotation:
Speech denoising (SD) is an important task of many, if not all, modern signal processing chains used in devices and for everyday-life applications. While there are many published and powerful deep neural network (DNN)-based methods for SD, few are optimized for resource-constrained platforms such as mobile devices. Additionally, most DNN-based methods for SD are not focusing on full-band (FB) signals, i.e. having 48 kHz sampling rate, and/or low latency cases. In this paper we present a causal, ...
ID: 2509.05079v1 eess.AS, cs.LG, cs.SD, eess.SP