📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 SwiftF0: Fast and Accurate Monophonic Pitch Detection

2025-08-28

Авторы:

Lars Nieradzik

## Контекст Задача монофонической оценки пичами (F0-estimation) является ключевой в области аудиопроцессинга, особенно при работе в шумных условиях. Несмотря на развитие современных алгоритмов, достижение высокой точности в реальном времени на ресурс-ограниченных устройствах остается вызовом. Эта проблема усложняется дополнительно тем, что доступ к идеально точным значениям пичами в речевых и музыкальных данных часто ограничивается аппроксимативными или алгоритмическими оценками. Данная работа нацелена на развитие решения, которое обеспечивает высокую точность, широкую область применения и эффективность в реальном времени. ## Метод SwiftF0 – это нейронная модель, разработанная с учетом требований к высокой точности, эффективности и универсальности. Она обучается на разнообразных данных, включая речь, музыку и синтетически сгенерированные звуки. Использование разнообразных техник аугментации данных позволяет модели достичь высокой общеуниверсальности и подавлять проблему переобучения. Архитектура модели оптимизирована для минимизации количества параметров и ускорения вычислений, чтобы обеспечить реальное время исполнения даже на небольших устройствах. ## Результаты Были проведены многочисленные эксперименты для оценки точности и эффективности SwiftF0. Модель была протестирована на множестве звуковых корпусов, включая речь и музыку, и показала стабильную высокую точность в разных шумовых условиях. Например, на 10 дБ SNR, SwiftF0 достигла гармонического мера (HM) 91.80%, что значительно превосходит соревнования, такие как CREPE. Также был проведен анализ времени выполнения, показав, что SwiftF0 работает примерно 42 раз быстрее CREPE на CPU. ## Значимость SwiftF0 открывает новые возможности для применения моделей оценки пичами в реальном времени, например, в распознавании речи, устройствах с ограниченными ресурсами и виртуальных инструментах. Его высокая точность и эффективность позволяют использовать его в различных сценариях, включая мобильные приложения и ИИ для музыкального создания. Благодаря AudioCommons и SpeechSynth, данная работа также вносит вклад в развитие открытых ресурсов для комьюнити. ## Выводы SwiftF0 достигает нового состояния искусства в монофонической оценке пичами, демонстрируя свою эффективность и универсальность. Будущие работы будут сфокусированы на расширении модели для работы в смешанных акустических условиях и её интеграции в более широкие аудиопроцессинговые пайплайны.

Annotation:

Accurate and real-time monophonic pitch estimation in noisy conditions, particularly on resource-constrained devices, remains an open challenge in audio processing. We present \emph{SwiftF0}, a novel, lightweight neural model that sets a new state-of-the-art for monophonic pitch estimation. Through training on diverse speech, music, and synthetic datasets with extensive data augmentation, SwiftF0 achieves robust generalization across acoustic domains while maintaining computational efficiency. S...

ID: 2508.18440v1 cs.SD, cs.AI, cs.LG, eess.AS

arXiv PDF

📄 Multi-Metric Preference Alignment for Generative Speech Restoration

2025-08-27

Авторы:

Junan Zhang, Xueyao Zhang, Jing Yang, Yuancheng Wang, Fan Fan, Zhizheng Wu

## Контекст Область генерируемого голосового реставрирования широко применяется в различных сферах, включая медицину, разговорные системы, игры и анимацию. Несмотря на успехы современных генерируемых моделей в этой области, их тренировочные цели часто не совпадают с человеческими предпочтениями, что приводит к низкому качеству результатов. Хотя пост-тренировочное применение предпочтений зарекомендовало себя в других генерируемых областях, таких как текст и изображения, в генерируемом реставрировании речи эта практика пока мало исследована. Необходимо разработать методы, позволяющие эффективно улучшать качество результатов в соответствии с человеческими предпочтениями. ## Метод Для решения описанных проблем мы предлагаем метод многомерного приведения предпочтений к алгоритму Direct Preference Optimization (DPO). Мы разработали новый датасет GenSR-Pref, содержащий 80 тысяч предпочтений, где каждый выбор был согласован с кругом метрик, охватывающих перceptive quality, signal fidelity, content consistency и timbre preservation. Наш подход гарантирует целостность и достоверность предпочтений. Мы применяем DPO к трем основным моделям генерируемого реставрирования речи: autoregressive models (AR), masked generative models (MGM) и flow-matching models (FM). Это позволяет обеспечить последовательное улучшение качества реставрирования в различных сценариях и бенчмарках. ## Результаты Мы провели обширные эксперименты с использованием наших методов и сравнили их с базовыми моделями. Результаты показали значительные повышения качества в 3х моделях на разных данных и задачах. Мы также провели анализ абляции, подтвердив преимущество нашего многомерного подхода над единоmetric-approaches. Благодаря нашей стратегии, модели становятся более совместимыми с человеческими предпочтениями и показывают лучшие результаты в качестве решения задачи generative speech restoration. ## Значимость Предлагаемый подход имеет широкую полезность в области генерируемого голосового реставрирования. Он может применяться в сферах, требующих высокого качества реставрирования, таких как медицинское измерение, разговорные системы, развлекательные и производственные системы, где речь играет ключевую роль. Наши результаты имеют потенциал для улучшения качества результатов в области генерируемой речи и могут быть широко использованы в практических задачах. ## Выводы Мы представили метод многомерного приведения предпочтений, который существенно улучшает качество результатов в генерируемом реставрировании речи. Наши результаты показали эффективность этого подхода в различных моделях и задачах. В дальнейших исследованиях мы планируем расширить наш датасет и применить нашу стратегию к другим моделям и областям генерируемой речи.

Annotation:

Recent generative models have significantly advanced speech restoration tasks, yet their training objectives often misalign with human perceptual preferences, resulting in suboptimal quality. While post-training alignment has proven effective in other generative domains like text and image generation, its application to generative speech restoration remains largely under-explored. This work investigates the challenges of applying preference-based post-training to this task, focusing on how to de...

ID: 2508.17229v1 cs.SD, cs.AI, cs.LG, eess.AS

arXiv PDF

📄 FasterVoiceGrad: Faster One-step Diffusion-Based Voice Conversion with Adversarial Diffusion Conversion Distillation

2025-08-27

Авторы:

Takuhiro Kaneko, Hirokazu Kameoka, Kou Tanaka, Yuto Kondo

#### Контекст "Диффузионные модели, такие как VoiceGrad, достигают высокой степени точности в речевом преобразовании (Voice Conversion, VC) по сравнению с более простыми моделями генерации речи. Однако их выполнение требует многоэтапного сэмплинга, что приводит к заметному снижению скорости. Для устранения этого недостатка была предложена FastVoiceGrad, которая преобразовывает VoiceGrad в одношаговую модель. Тем не менее, FastVoiceGrad все еще зависит от тяжеловесного контентного энкодера, необходимого для выделения речевой идентичности и контента, что также замедляет преобразование. Это привело к развитию FasterVoiceGrad, которая стремится улучшить скорость диффузионного VC, добиваясь этого за счет внедрения адверсарного диффузионного преобразования и одновременного обучения с помощью алгоритма ADCD." #### Метод "FasterVoiceGrad основывается на введении нового парадигмы для одношагового диффузионного VC. Она использует метод ADCD для улучшения качества речевого преобразования, при этом решая проблему дорогостоящего обучения контентного энкодера. Модель состоит из двух ключевых элементов: одношаговой диффузионной модели и содержимого-энкодера, которые обучаются одновременно. Это позволяет избежать избыточного вычислительного напряжения, связанного с длительными итерациями сэмплирования. Модель использует простую архитектуру, но эффективную, чтобы улучшить скорость, сохранив высокое качество за счет ускоренного обучения диффузионной модели и содержимого-энкодера." #### Результаты "В экспериментах была проведена сравнительная оценка скорости и качества речевого преобразования между FasterVoiceGrad, FastVoiceGrad и VoiceGrad. Результаты показывают, что FasterVoiceGrad демонстрирует скорость выполнения 6.6-6.9 раз быстрее генерации VoiceGrad и 1.8 раз быстрее FastVoiceGrad при использовании GPU и CPU. Однако в качестве речевого преобразования она сохраняет высокую точность и силу речевого выражения, близкую к VoiceGrad. Это делает ее более скорострельной, но не хуже по качеству." #### Значимость "FasterVoiceGrad демонстрирует новую технику для ускорения диффузионных моделей VC, сочетая в себе высокое качество и быстроту преобразования. Она может быть применена в различных сценариях, где необходимо быстрое преобразование речи, например, в системах реального времени или приложениях, требующих высокой производительности. Это позволяет улучшить интерактивность и пользовательский опыт, особенно в системах с низкой задержкой, таких как видеоконференции или синтез речи." #### Выводы "Данная работа открывает новый путь для улучшения скорости и качества диффузионных моделей VC. Она показывает, что можно добиться высокой точности при меньшем

Annotation:

A diffusion-based voice conversion (VC) model (e.g., VoiceGrad) can achieve high speech quality and speaker similarity; however, its conversion process is slow owing to iterative sampling. FastVoiceGrad overcomes this limitation by distilling VoiceGrad into a one-step diffusion model. However, it still requires a computationally intensive content encoder to disentangle the speaker's identity and content, which slows conversion. Therefore, we propose FasterVoiceGrad, a novel one-step diffusion-ba...

ID: 2508.17868v1 cs.SD, cs.AI, cs.LG, eess.AS, stat.ML

arXiv PDF

📄 Vocoder-Projected Feature Discriminator

2025-08-27

Авторы:

Takuhiro Kaneko, Hirokazu Kameoka, Kou Tanaka, Yuto Kondo

#### Контекст Текстовая речь и голосовая преобразование (TTS и VC) широко используются в различных приложениях, от интеллектуальных помощников до доступности для людей с ограниченными возможностями. Однако для этих задач часто используются значительные ресурсы вычислительных мощностей и памяти, особенно при работе с громкостной спектрограммой или высокополиномиальными фичевыми моделями. Эти аспекты не только усложняют реализацию, но и затрудняют развертывание моделей в реальном времени. В настоящем исследовании решается проблема эффективного обучения моделей TTS и VC с меньшим потреблением ресурсов, обеспечивая при этом высокое качество звука. #### Метод Мы предлагаем метод **Vocoder-Projected Feature Discriminator (VPFD)**, который обучается с помощью валидации временного ряда на основе волнового моделирования. Эта техника позволяет воспроизводить звук с помощью упрощенного алгоритма, который заменяет сложную последовательность upsampling-операций на более простой процесс. Модель использует **vocoder feature extractor**, который извлекает основные характеристики сигнала, не требуя дополнительного расширения во временной области. Эта техника уменьшает размер модели и увеличивает скорость обучения без потери качества звука. #### Результаты Мы провели эксперименты на диффузионно-основанных моделях VC с использованием моделей **MelGAN** и **HiFi-GAN**. При этом использовались данные из звуковых баз **VCTK** и **LibriTTS**. Результаты показали, что VPFD достигает качества аудио около 95% от волнового дискриминатора, при этом уменьшая время обучения и потребление памяти в 9,6 и 11,4 раз соответственно. Это указывает на то, что **дискриминатор волнового моделирования** может быть успешно заменен на более лёгкий алгоритм без потери качества. #### Значимость Предлагаемый метод VPFD имеет широкое применение в областях TTS и VC, особенно когда требуется эффективное решение с ограниченными вычислительными ресурсами. Это может применяться в мобильных приложениях, браузерных сервисах и даже в системах распознавания речи. Кроме того, **экономия ресурсов** и **улучшение скорости обучения** делают VPFD привлекательным для использования в крупных моделях, которые требуют многочисленных проходов на обучение. Таким образом, это может способствовать более быстрому развитию текстовой речи и голосового преобразования. #### Выводы Мы установили, что VPFD позволяет достичь высокого качества звука при значительно меньших затратах ресурсов по сравнению с волновым дискриминатором. Данный подход может быть использован в будущих исследованиях для оптимизации моделей TTS и VC, а также для улучшения их производительности в реальном вре

Annotation:

In text-to-speech (TTS) and voice conversion (VC), acoustic features, such as mel spectrograms, are typically used as synthesis or conversion targets owing to their compactness and ease of learning. However, because the ultimate goal is to generate high-quality waveforms, employing a vocoder to convert these features into waveforms and applying adversarial training in the time domain is reasonable. Nevertheless, upsampling the waveform introduces significant time and memory overheads. To address...

ID: 2508.17874v1 cs.SD, cs.AI, cs.LG, eess.AS, stat.ML

arXiv PDF

📄 ECHO: Frequency-aware Hierarchical Encoding for Variable-length Signal

2025-08-22

Авторы:

Yucong Zhang, Juan Liu, Ming Li

#### Контекст Предварительно обученные фундаментальные модели показали определенный успех в области обработки звука и текста, однако их потенциал в области общей моделирования сигналов — включая акустические, вибрационные и другие индустриальные данные сенсоров — пока остается недостаточно исследованным. Существующие подходы, основанные на разделении сигнала по подботам (sub-band-based), достигли высокой эффективности, но ограничены фиксированным размером входных данных и отсутствием информации о частотной позиции. В данной работе мы предлагаем новую фундаментальную модель, которая объединяет расширенную архитектуру разделения по бандам с позиционными инкапсуляциями частоты, обеспечивая точную локализацию спектра в произвольных конфигурациях семплирования. Модель включает в себя продвинутый ввод неограниченной длины, не требующий дополнительного подучавливания или разбиения на фрагменты, что позволяет сохранять как временную, так и спектральную точность. Мы проверили наш подход на бенчмарке SIREN (https://github.com/yucongzh/SIREN), созданном для синтетического и реального сигнала, который объединяет несколько баз данных, включая все задачи DCASE (2020-2025) и корпусы индустриальных сигналов. Результаты экспериментов подтверждают состояние лидирующего решения в задачах аномалического детектирования и диагностики аварий. #### Метод Мы предлагаем модель, основанную на продвинутой архитектуре разделения сигнала по бандам, в которой включены позиционные модели частоты, обеспечивающие точную локализацию в спектре. Наша модель использует процесс синхронного обучения, что позволяет ему поддерживать входные данные произвольной длины без необходимости подобрать длину или разбивать данные. Мы также внедрили высший уровень позиционного сигнала в спектр, чтобы сохранить высокую точность в интерпретации фоновых и аномальных шумов. Для оценки модели мы использовали бенчмарк SIREN, который предоставляет широкий набор данных, включая задачи DCASE, а также реальные собранные данные в различных индустрийных приложениях. Кроме того, мы проводили подробный анализ эффективности модели в задачах детектирования аномалий и идентификации аварий. #### Результаты Мы провести эксперименты на базе SIREN и получили выдающиеся результаты в задачах аномалического детектирования и идентификации аварий. Наши результаты показали высшую точность по сравнению с имеющимися подходами, особенно в ситуациях с произвольными длинами входных данных и произвольными конфигурациями семплирования. Мы также провели проверку на реальных данных и продемонстрировали, что наш подход может эффек

Annotation:

Pre-trained foundation models have demonstrated remarkable success in vision and language, yet their potential for general machine signal modeling-covering acoustic, vibration, and other industrial sensor data-remains under-explored. Existing approach using sub-band-based encoders has achieved competitive results but are limited by fixed input lengths, and the absence of explicit frequency positional encoding. In this work, we propose a novel foundation model that integrates an advanced band-spl...

ID: 2508.14689v1 cs.SD, cs.AI, cs.LG, eess.AS

arXiv PDF

📄 Alternating Approach-Putt Models for Multi-Stage Speech Enhancement

2025-08-16

Авторы:

Iksoon Jeong, Kyung-Joong Kim, Kang-Hun Ahn

#### Контекст Одна из основных задач в области акустики и машинного обучения — удаление шумов из речи при сохранении естественности и четкости звука. Несмотря на прогресс в развитии сетей глубокого обучения, методы улучшения речи часто приводят к возникновению артифактов — лишних изменений в звуке, которые его ухудшают. Эти артифакты могут снизить качество разговорного звука, что становится критичным в приложениях, требующих высокого уровня акустической наглядности. Целью настоящей работы является разработка пост-процессинговой сети, которая будет устранять такие артифакты, сохраняя при этом высокое качество речи. #### Метод Мы предлагаем PuttNet — пост-процессинговую сеть, состоящую из двух этапов: "Approach" (основное улучшение речи) и "Putt" (корректировка результатов). Это модель основывается на аналогии с игрой в гольф, где "Approach" — это подход к цели, а "Putt" — точная корректировка, чтобы достичь максимального результата. Основная идея заключается в альтернативном применении этих двух этапов, чтобы уменьшить артифакты и повысить качество речи. Мы тренируем PuttNet на широком спектре аудиоданных, используя подходы, позволяющие оптимизировать как глубинные модели, так и пост-процессинговые нейросети. #### Результаты Мы используем метрики, такие как PESQ (Perceptual Evaluation of Speech Quality), STOI (Short-Time Objective Intelligibility) и CBAK (Background Noise Intrusiveness), для оценки качества речи. Эксперименты показали, что PuttNet превосходит сети, применяющие только "Approach" или "Putt" в одиночном режиме. Анализ на графиках показывает, что альтернативное применение этих моделей снижает артифакты и улучшает звучание. Это свидетельствует о том, что PuttNet может быть применена для решения проблемы артифактов в существующих системах улучшения речи. #### Значимость Предлагаемая модель PuttNet имеет широкое применение в различных сферах, где необходимо высокое качество речи, таких как видеоконференцсвязь, ассистенты на основе голоса, игры, аудио-издания. Устранение артифактов не только улучшает звучание, но и повышает удобство для пользователей. Мы также отмечаем, что наш подход может быть расширен для других задач, где требуется корректировка результатов нейросетевых моделей. #### Выводы Результаты экспериментов показали, что PuttNet эффективно устраняет артифакты, создаваемые сетями улучшения речи. Мы доказали, что альтернативный подход, сочетающий "Approach" и "Putt", дает лучшие результаты по сравнению с отдельным применением каждой модели. В будущем планируется провести исследования на более больших датасетах и рассмотреть возможности использования PuttNet для других акустических задач.

Annotation:

Speech enhancement using artificial neural networks aims to remove noise from noisy speech signals while preserving the speech content. However, speech enhancement networks often introduce distortions to the speech signal, referred to as artifacts, which can degrade audio quality. In this work, we propose a post-processing neural network designed to mitigate artifacts introduced by speech enhancement models. Inspired by the analogy of making a `Putt' after an `Approach' in golf, we name our mode...

ID: 2508.10436v1 cs.SD, cs.AI, cs.LG, eess.AS

arXiv PDF

📄 Whisfusion: Parallel ASR Decoding via a Diffusion Transformer

2025-08-13

Авторы:

Taeyoun Kwon, Junhyuk Ahn, Taegeun Yun, Heeju Jwa, Yoonchae Choi, Siwon Park, Nam-Joon Kim, Jangchan Kim, Hyun Gon Ryu, Hyuk-Jae Lee

## Контекст Поиск эффективных решений для автоматического распознавания речи (ASR) является ключевым заданием в современной технике, особенно в задачах необходимости реального времени, таких как реального времени генерации субтитров и транскрибирования мероприятий. Несмотря на прогресс в этой области, существуют серьезные вызовы, связанные с тем, чтобы достичь низкой задержки и высокой точности в реальном времени. Традиционные последовательные авторегрессионные (AR) декодеры часто сталкиваются с проблемой задержек из-за того, что каждый токен генерируется последовательно. Неавторегрессионные (NAR) методы, с другой стороны, снимают эту задержку но не всегда обеспечивают высокую точность. Этот контекст поднимает вопрос о создании архитектур, которые объединяют выгоды архитектур AR и NAR для решения задачи ASR. ## Метод Whisfusion представляет собой инновационный подход к решению этой проблемы, объединяя предварительно обученный Whisper-encoder (текстовой модели) с диффузионным декодером (для генерации речи). Диффузионный подход отличается тем, что он предполагает работу с всем акустическим контекстом одновременно в каждом шаге декодирования, что позволяет решить проблему задержек, связанных с AR-декодерами. Для улучшения понимания между двумя моделями (текстовой и звуковой) в Whisfusion введена лёгкая сеть cross-attention adapter, которая позволяет эффективно изменять репрезентации данных. Также введена новая стратегия многошагового декодирования, которая позволяет увеличить число кандидатов для поиска токена, увеличивая точность без существенного влияния на скорость работы. ## Результаты Для оценки эффективности Whisfusion проводились эксперименты с использованием данных из набора LibriSpeech (960 часов). Это позволило сравнить результаты с другими моделями, включая Whisper-tiny. Результаты показали, что Whisfusion достигает ниже среднего Word Error Rate (WER) в сравнении с Whisper-tiny (8.3% vs. 9.7%), при этом сохраняя почти одинаковую задержку для коротких аудиофрагментов. Особенно заметное преимущество Whisfusion проявляется при работе с длинными аудиозаписями, где оно значительно ускоряется по сравнению с AR-декодерами, достигая до 2.6x быстрее. Эти результаты показывают, что Whisfusion может стать эффективной альтернативой для решения задач ASR в сценариях с длинными аудио. ## Значимость Whisfusion открывает новые перспективы для ASR-систем, особенно в области реального времени, где необходима высокая скорость и точность. Он может быть применен в различных сферах, включая реального времени генерацию субтитров, транскрибирование мероприятий и устройства с низким потреблением ресурсов

Annotation:

Fast Automatic Speech Recognition (ASR) is critical for latency-sensitive applications such as real-time captioning and meeting transcription. However, truly parallel ASR decoding remains challenging due to the sequential nature of autoregressive (AR) decoders and the context limitations of non-autoregressive (NAR) methods. While modern ASR encoders can process up to 30 seconds of audio at once, AR decoders still generate tokens sequentially, creating a latency bottleneck. We propose Whisfusion,...

ID: 2508.07048v1 cs.SD, cs.AI, cs.LG, eess.AS

arXiv PDF

Показано 21 - 27 из 27 записей