📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Vocoder-Projected Feature Discriminator

2025-08-27

Авторы:

Takuhiro Kaneko, Hirokazu Kameoka, Kou Tanaka, Yuto Kondo

#### Контекст Текстовая речь и голосовая преобразование (TTS и VC) широко используются в различных приложениях, от интеллектуальных помощников до доступности для людей с ограниченными возможностями. Однако для этих задач часто используются значительные ресурсы вычислительных мощностей и памяти, особенно при работе с громкостной спектрограммой или высокополиномиальными фичевыми моделями. Эти аспекты не только усложняют реализацию, но и затрудняют развертывание моделей в реальном времени. В настоящем исследовании решается проблема эффективного обучения моделей TTS и VC с меньшим потреблением ресурсов, обеспечивая при этом высокое качество звука. #### Метод Мы предлагаем метод **Vocoder-Projected Feature Discriminator (VPFD)**, который обучается с помощью валидации временного ряда на основе волнового моделирования. Эта техника позволяет воспроизводить звук с помощью упрощенного алгоритма, который заменяет сложную последовательность upsampling-операций на более простой процесс. Модель использует **vocoder feature extractor**, который извлекает основные характеристики сигнала, не требуя дополнительного расширения во временной области. Эта техника уменьшает размер модели и увеличивает скорость обучения без потери качества звука. #### Результаты Мы провели эксперименты на диффузионно-основанных моделях VC с использованием моделей **MelGAN** и **HiFi-GAN**. При этом использовались данные из звуковых баз **VCTK** и **LibriTTS**. Результаты показали, что VPFD достигает качества аудио около 95% от волнового дискриминатора, при этом уменьшая время обучения и потребление памяти в 9,6 и 11,4 раз соответственно. Это указывает на то, что **дискриминатор волнового моделирования** может быть успешно заменен на более лёгкий алгоритм без потери качества. #### Значимость Предлагаемый метод VPFD имеет широкое применение в областях TTS и VC, особенно когда требуется эффективное решение с ограниченными вычислительными ресурсами. Это может применяться в мобильных приложениях, браузерных сервисах и даже в системах распознавания речи. Кроме того, **экономия ресурсов** и **улучшение скорости обучения** делают VPFD привлекательным для использования в крупных моделях, которые требуют многочисленных проходов на обучение. Таким образом, это может способствовать более быстрому развитию текстовой речи и голосового преобразования. #### Выводы Мы установили, что VPFD позволяет достичь высокого качества звука при значительно меньших затратах ресурсов по сравнению с волновым дискриминатором. Данный подход может быть использован в будущих исследованиях для оптимизации моделей TTS и VC, а также для улучшения их производительности в реальном вре

Annotation:

In text-to-speech (TTS) and voice conversion (VC), acoustic features, such as mel spectrograms, are typically used as synthesis or conversion targets owing to their compactness and ease of learning. However, because the ultimate goal is to generate high-quality waveforms, employing a vocoder to convert these features into waveforms and applying adversarial training in the time domain is reasonable. Nevertheless, upsampling the waveform introduces significant time and memory overheads. To address...

ID: 2508.17874v1 cs.SD, cs.AI, cs.LG, eess.AS, stat.ML

arXiv PDF

📄 ECHO: Frequency-aware Hierarchical Encoding for Variable-length Signal

2025-08-22

Авторы:

Yucong Zhang, Juan Liu, Ming Li

#### Контекст Предварительно обученные фундаментальные модели показали определенный успех в области обработки звука и текста, однако их потенциал в области общей моделирования сигналов — включая акустические, вибрационные и другие индустриальные данные сенсоров — пока остается недостаточно исследованным. Существующие подходы, основанные на разделении сигнала по подботам (sub-band-based), достигли высокой эффективности, но ограничены фиксированным размером входных данных и отсутствием информации о частотной позиции. В данной работе мы предлагаем новую фундаментальную модель, которая объединяет расширенную архитектуру разделения по бандам с позиционными инкапсуляциями частоты, обеспечивая точную локализацию спектра в произвольных конфигурациях семплирования. Модель включает в себя продвинутый ввод неограниченной длины, не требующий дополнительного подучавливания или разбиения на фрагменты, что позволяет сохранять как временную, так и спектральную точность. Мы проверили наш подход на бенчмарке SIREN (https://github.com/yucongzh/SIREN), созданном для синтетического и реального сигнала, который объединяет несколько баз данных, включая все задачи DCASE (2020-2025) и корпусы индустриальных сигналов. Результаты экспериментов подтверждают состояние лидирующего решения в задачах аномалического детектирования и диагностики аварий. #### Метод Мы предлагаем модель, основанную на продвинутой архитектуре разделения сигнала по бандам, в которой включены позиционные модели частоты, обеспечивающие точную локализацию в спектре. Наша модель использует процесс синхронного обучения, что позволяет ему поддерживать входные данные произвольной длины без необходимости подобрать длину или разбивать данные. Мы также внедрили высший уровень позиционного сигнала в спектр, чтобы сохранить высокую точность в интерпретации фоновых и аномальных шумов. Для оценки модели мы использовали бенчмарк SIREN, который предоставляет широкий набор данных, включая задачи DCASE, а также реальные собранные данные в различных индустрийных приложениях. Кроме того, мы проводили подробный анализ эффективности модели в задачах детектирования аномалий и идентификации аварий. #### Результаты Мы провести эксперименты на базе SIREN и получили выдающиеся результаты в задачах аномалического детектирования и идентификации аварий. Наши результаты показали высшую точность по сравнению с имеющимися подходами, особенно в ситуациях с произвольными длинами входных данных и произвольными конфигурациями семплирования. Мы также провели проверку на реальных данных и продемонстрировали, что наш подход может эффек

Annotation:

Pre-trained foundation models have demonstrated remarkable success in vision and language, yet their potential for general machine signal modeling-covering acoustic, vibration, and other industrial sensor data-remains under-explored. Existing approach using sub-band-based encoders has achieved competitive results but are limited by fixed input lengths, and the absence of explicit frequency positional encoding. In this work, we propose a novel foundation model that integrates an advanced band-spl...

ID: 2508.14689v1 cs.SD, cs.AI, cs.LG, eess.AS

arXiv PDF

📄 Alternating Approach-Putt Models for Multi-Stage Speech Enhancement

2025-08-16

Авторы:

Iksoon Jeong, Kyung-Joong Kim, Kang-Hun Ahn

#### Контекст Одна из основных задач в области акустики и машинного обучения — удаление шумов из речи при сохранении естественности и четкости звука. Несмотря на прогресс в развитии сетей глубокого обучения, методы улучшения речи часто приводят к возникновению артифактов — лишних изменений в звуке, которые его ухудшают. Эти артифакты могут снизить качество разговорного звука, что становится критичным в приложениях, требующих высокого уровня акустической наглядности. Целью настоящей работы является разработка пост-процессинговой сети, которая будет устранять такие артифакты, сохраняя при этом высокое качество речи. #### Метод Мы предлагаем PuttNet — пост-процессинговую сеть, состоящую из двух этапов: "Approach" (основное улучшение речи) и "Putt" (корректировка результатов). Это модель основывается на аналогии с игрой в гольф, где "Approach" — это подход к цели, а "Putt" — точная корректировка, чтобы достичь максимального результата. Основная идея заключается в альтернативном применении этих двух этапов, чтобы уменьшить артифакты и повысить качество речи. Мы тренируем PuttNet на широком спектре аудиоданных, используя подходы, позволяющие оптимизировать как глубинные модели, так и пост-процессинговые нейросети. #### Результаты Мы используем метрики, такие как PESQ (Perceptual Evaluation of Speech Quality), STOI (Short-Time Objective Intelligibility) и CBAK (Background Noise Intrusiveness), для оценки качества речи. Эксперименты показали, что PuttNet превосходит сети, применяющие только "Approach" или "Putt" в одиночном режиме. Анализ на графиках показывает, что альтернативное применение этих моделей снижает артифакты и улучшает звучание. Это свидетельствует о том, что PuttNet может быть применена для решения проблемы артифактов в существующих системах улучшения речи. #### Значимость Предлагаемая модель PuttNet имеет широкое применение в различных сферах, где необходимо высокое качество речи, таких как видеоконференцсвязь, ассистенты на основе голоса, игры, аудио-издания. Устранение артифактов не только улучшает звучание, но и повышает удобство для пользователей. Мы также отмечаем, что наш подход может быть расширен для других задач, где требуется корректировка результатов нейросетевых моделей. #### Выводы Результаты экспериментов показали, что PuttNet эффективно устраняет артифакты, создаваемые сетями улучшения речи. Мы доказали, что альтернативный подход, сочетающий "Approach" и "Putt", дает лучшие результаты по сравнению с отдельным применением каждой модели. В будущем планируется провести исследования на более больших датасетах и рассмотреть возможности использования PuttNet для других акустических задач.

Annotation:

Speech enhancement using artificial neural networks aims to remove noise from noisy speech signals while preserving the speech content. However, speech enhancement networks often introduce distortions to the speech signal, referred to as artifacts, which can degrade audio quality. In this work, we propose a post-processing neural network designed to mitigate artifacts introduced by speech enhancement models. Inspired by the analogy of making a `Putt' after an `Approach' in golf, we name our mode...

ID: 2508.10436v1 cs.SD, cs.AI, cs.LG, eess.AS

arXiv PDF

📄 QAMRO: Quality-aware Adaptive Margin Ranking Optimization for Human-aligned Assessment of Audio Generation Systems

2025-08-14

Авторы:

Chien-Chun Wang, Kuan-Tang Huang, Cheng-Yeh Yang, Hung-Shin Lee, Hsin-Min Wang, Berlin Chen

## Контекст Оценка качества аудиогенерационных систем, таких как text-to-speech (TTS), text-to-music (TTM), и text-to-audio (TTA), представляет собой сложную задачу из-за субъективности человеческого ощущения и многомерности качества аудио. Традиционные подходы, основанные на предсказании mean opinion score (MOS), стреляют на оценку среднего мнения без учета относительности человеческих представлений. Это ограничивает точность и значимость таких моделей. Для решения этой проблемы, в статье предлагается QAMRO — Quality-aware Adaptive Margin Ranking Optimization, новый подход, который обобщает регрессионные цели с различных точек зрения. Он позволяет выделить перспективные перспективы и улучшить точность оценки уровня качества. Разработка QAMRO основывается на предварительно обученных моделях CLAP и Audiobox-Aesthetics, а его эффективность проверяется на данных из AudioMOS Challenge 2025. ## Метод QAMRO является адаптивным и качественно ориентированным фреймвормом, который использует регрессионные и ранжированные подходы для оценки качества звуковой аудиогенерации. Он интегрирует стандартные регрессионные цели с позиционными ограничениями, чтобы учесть относительность оценок. За основу взяты предварительно обученные модели CLAP и Audiobox-Aesthetics, чтобы обеспечить представление звука и текста. Модель обучается на AudioMOS Challenge 2025, что позволяет ей научиться идентифицировать относительные качественные различия. Основной инновацией QAMRO является его возможность адаптироваться к разным сценариям оценки, используя гибкие меры для приоритезации точных рейтингов. ## Результаты На основе AudioMOS Challenge 2025, QAMRO проверено на разных звуковых потребностях, включая TTS и TTA. Он показал не только высокую точность в предсказании MOS, но и более глубокую восприятие относительных различий в качестве аудио. Оценки становятся более точными и связаны с реальными предпочтениями людей. QAMRO также выделился в сравнении с базовыми моделями, показав значительные достижения в относительной оценке качества. Например, в тестах на TTS, QAMRO показал улучшение в точности на 15% по сравнению с наиболее близким конкурентом. ## Значимость QAMRO может применяться в различных областях, включая оценку текстово-аудио систем, проверку звуковых моделей, и разработку новых аудиогенераторов. Он предлагает значительные преимущества по сравнению с традиционными подходами, такими как более точное восприятие относительного качества аудио и универсальность решения для разных типов аудио. Этот подход может стать ключевым инструментом для улучшения качества генерируемых аудио, привнеся ориентацию на человеческие ощущения и предпочтения. ## Выводы QAMRO представляет собой нову

Annotation:

Evaluating audio generation systems, including text-to-music (TTM), text-to-speech (TTS), and text-to-audio (TTA), remains challenging due to the subjective and multi-dimensional nature of human perception. Existing methods treat mean opinion score (MOS) prediction as a regression problem, but standard regression losses overlook the relativity of perceptual judgments. To address this limitation, we introduce QAMRO, a novel Quality-aware Adaptive Margin Ranking Optimization framework that seamles...

ID: 2508.08957v1 cs.SD, cs.AI, cs.LG

arXiv PDF

📄 Whisfusion: Parallel ASR Decoding via a Diffusion Transformer

2025-08-13

Авторы:

Taeyoun Kwon, Junhyuk Ahn, Taegeun Yun, Heeju Jwa, Yoonchae Choi, Siwon Park, Nam-Joon Kim, Jangchan Kim, Hyun Gon Ryu, Hyuk-Jae Lee

## Контекст Поиск эффективных решений для автоматического распознавания речи (ASR) является ключевым заданием в современной технике, особенно в задачах необходимости реального времени, таких как реального времени генерации субтитров и транскрибирования мероприятий. Несмотря на прогресс в этой области, существуют серьезные вызовы, связанные с тем, чтобы достичь низкой задержки и высокой точности в реальном времени. Традиционные последовательные авторегрессионные (AR) декодеры часто сталкиваются с проблемой задержек из-за того, что каждый токен генерируется последовательно. Неавторегрессионные (NAR) методы, с другой стороны, снимают эту задержку но не всегда обеспечивают высокую точность. Этот контекст поднимает вопрос о создании архитектур, которые объединяют выгоды архитектур AR и NAR для решения задачи ASR. ## Метод Whisfusion представляет собой инновационный подход к решению этой проблемы, объединяя предварительно обученный Whisper-encoder (текстовой модели) с диффузионным декодером (для генерации речи). Диффузионный подход отличается тем, что он предполагает работу с всем акустическим контекстом одновременно в каждом шаге декодирования, что позволяет решить проблему задержек, связанных с AR-декодерами. Для улучшения понимания между двумя моделями (текстовой и звуковой) в Whisfusion введена лёгкая сеть cross-attention adapter, которая позволяет эффективно изменять репрезентации данных. Также введена новая стратегия многошагового декодирования, которая позволяет увеличить число кандидатов для поиска токена, увеличивая точность без существенного влияния на скорость работы. ## Результаты Для оценки эффективности Whisfusion проводились эксперименты с использованием данных из набора LibriSpeech (960 часов). Это позволило сравнить результаты с другими моделями, включая Whisper-tiny. Результаты показали, что Whisfusion достигает ниже среднего Word Error Rate (WER) в сравнении с Whisper-tiny (8.3% vs. 9.7%), при этом сохраняя почти одинаковую задержку для коротких аудиофрагментов. Особенно заметное преимущество Whisfusion проявляется при работе с длинными аудиозаписями, где оно значительно ускоряется по сравнению с AR-декодерами, достигая до 2.6x быстрее. Эти результаты показывают, что Whisfusion может стать эффективной альтернативой для решения задач ASR в сценариях с длинными аудио. ## Значимость Whisfusion открывает новые перспективы для ASR-систем, особенно в области реального времени, где необходима высокая скорость и точность. Он может быть применен в различных сферах, включая реального времени генерацию субтитров, транскрибирование мероприятий и устройства с низким потреблением ресурсов

Annotation:

Fast Automatic Speech Recognition (ASR) is critical for latency-sensitive applications such as real-time captioning and meeting transcription. However, truly parallel ASR decoding remains challenging due to the sequential nature of autoregressive (AR) decoders and the context limitations of non-autoregressive (NAR) methods. While modern ASR encoders can process up to 30 seconds of audio at once, AR decoders still generate tokens sequentially, creating a latency bottleneck. We propose Whisfusion,...

ID: 2508.07048v1 cs.SD, cs.AI, cs.LG, eess.AS

arXiv PDF

📄 DAFMSVC: One-Shot Singing Voice Conversion with Dual Attention Mechanism and Flow Matching

2025-08-12

Авторы:

Wei Chen, Binzhu Sha, Dan Luo, Jing Yang, Zhuo Wang, Fan Fan, Zhiyong Wu

#### Контекст Singing Voice Conversion (SVC) является важной задачей в сфере музыкальных технологий, нацеленной на преобразование голоса источника в голос целевого исполнителя, сохраняя мелодию и текст. Особенно вызов составляет обеспечение качества звука и точность передачи голосового значения при преобразовании между незнакомыми голосами. Существующие методы часто сталкиваются с проблемами, такими как несогласованность звука или потеря естественности, что приводит к снижению качества генерируемого звука. Наша мотивация заключается в разработке метода, который бы решал эти проблемы и позволял эффективно преобразовывать голосовое выражение в рамках любого-к-любому SVC. #### Метод Мы предлагаем DAFMSVC (Dual Attention Flow Matching for Singing Voice Conversion) с рядом уникальных компонентов. Во-первых, мы заменяем самостоятельно выученные функции источника на самые близкие функции целевого звука, чтобы избежать проблемы "leakage" звука. Во-вторых, мы реализуем двойной кросс-аттенционный механизм для эффективного объединения эмбеддингов речи, мелодии и лингвистического контента. В-третьих, вводится модуль под названием Flow Matching, который основывается на методе течения потока стохастических процессов для высококачественной генерации аудио. Эта архитектура обеспечивает глубокую интеграцию между звуковыми особенностями и языковыми признаками, чтобы получать естественный и точный SVC. #### Результаты Мы проводим эксперименты на различных данных, включая независимую выборку гласных и согласных, а также реальные аудиозаписи. Мы сравниваем DAFMSVC с тремя современными методами SVC. Результаты показывают, что наш метод обеспечивает существенное улучшение точности в тестировании качества звука (STOI, PESQ) и показателей естественности (MOS) по сравнению с конкурентами. Наблюдается заметное сокращение в завышении звука и расхождении в периоде, что демонстрирует эффективность DAFMSVC в преобразовании голоса. #### Значимость DAFMSVC может быть применен в различных областях, таких как создание музыкальных композиций, тренировка моделей голоса, и личное использование генерации звуков. Его преимущества заключаются в высокой точности подгонки голоса, естественности генерируемых звуков и общей эффективности в обработке голосовых данных. Данный подход может способствовать развитию новых технологий в области звуковой обработки и искусственного интеллекта. #### Выводы Мы успешно разработали DAFMSVC, который представляет собой новый подход к one-shot SVC. Метод демонстрирует превосходство в расширении технических показателей и качестве звука по с

Annotation:

Singing Voice Conversion (SVC) transfers a source singer's timbre to a target while keeping melody and lyrics. The key challenge in any-to-any SVC is adapting unseen speaker timbres to source audio without quality degradation. Existing methods either face timbre leakage or fail to achieve satisfactory timbre similarity and quality in the generated audio. To address these challenges, we propose DAFMSVC, where the self-supervised learning (SSL) features from the source audio are replaced with the ...

ID: 2508.05978v1 cs.SD, cs.AI, cs.LG

arXiv PDF

📄 NVSpeech: An Integrated and Scalable Pipeline for Human-Like Speech Modeling with Paralinguistic Vocalizations

2025-08-09

Авторы:

Huan Liao, Qinke Ni, Yuancheng Wang, Yiheng Lu, Haoyue Zhan, Pengyuan Xie, Qiang Zhang, Zhizheng Wu

## КОНТЕКСТ И ПРОБЛЕМАТИКА Паралингвистические вокализации, такие как смех, вздох, интерьекции типа "ум" или "о", являются важной частью естественной устной коммуникации. Они передают эмоции, намерения и социальные сигналы, которые невозможно выразить только с помощью лексического контекста. Однако традиционные системы автоматического распознования речи (ASR) и системы текст-в-голос (TTS) обычно игнорируют эти аспекты, сосредоточиваясь исключительно на лексическом контенте. Это приводит к недостатку выразительности и натуральности в синтезированной речи, что особенно заметно в многомодальных системах коммуникации. Несмотря на прогресс в области ASR и TTS, отсутствие интегрированных решений для распознавания и синтеза паралингвистических элементов остается ключевой проблемой. Многие существующие модели не способны эффективно обрабатывать невербальные звуки или управлять ими в процессе синтеза. Это ограничивает возможности создания высококачественных систем, способных моделировать человеческую речь во всей ее сложности. Мотивация данного исследования заключается в том, чтобы предложить комплексное решение, которое бы объединило распознавание и синтез паралингвистических вокализаций в единый рабочий процесс. Такой подход должен быть масштабируемым, контролируемым и применимым к разным языкам, в том числе к китайскому, где специфика языковой модели требует особого внимания к невербальным элементам речи. ## ПРЕДЛОЖЕННЫЙ МЕТОД Авторы представляют NVSpeech – интегрированную и масштабируемую пайплайн для моделирования паралингвистических вокализаций. Этот подход включает три основных компонента: создание датасетов, моделирование ASR и контролируемый TTS. В первую очередь, был разработан набор данных из 48 430 ручно аннотированных утверждений с 18 категориями паралингвистических отметок на уровне слов. Этот датасет позволяет обучить модели распознавать и аннотировать паралингвистические элементы. Далее, разработана паралингвистически-ориентированная моделя ASR, которая включает паралингвистические отметок в процесс распознавания. Например, речь "You're so funny [Laughter]" будет распознана как сочетание лексических и невербальных элементов. Эта модель была использована для автоматического аннотирования большого набора данных из 174 179 утверждений (573 часа речи), полученных из китайского корпуса. Наконец, была проведена файнтюнинг TTS моделей на данных, полученных вручную и автоматически, что позволяет контролировать паралингвистические элементы в процессе синтеза речи. Эта функция позволяет вставлять паралингвистические элементы в любой момент речи, обеспечивая более естественную и выразительную модель речи. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Эксперименты проведены на китайском датасете, который включает в себя 573 часа речи с паралингвистическими аннотациями. Результаты показывают, что предложенная модель ASR достигает высокой точности в распознавании как лексических, так и невербальных элементов речи. TTS модель, обученная на этом датасете, показала высокую точность в воспроизведении паралингвистических вокализаций. Особенно заметно было улучшение выразительности синтезированной речи, когда паралингвистические элементы были вставлены в контексте. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ NVSpeech предлагает практические преимущества в областях, требующих высококачественной выразительной речи, таких как виртуальные помощники, электронные обучающие системы и мультимодальные системы коммуникации. Его способность контролировать паралингвистические элементы позволяет создавать более натуральную и адаптивную речь, что может улучшить взаимодействие между человеком и машиной. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ NVSpeech является первым открытым и масштабируемым решением для моделирования паралингвистических вокализаций в китайском языке. Он объединяет распознавание и синтез в единый процесс, что открывает пути для дальнейших исследований в области выразительной речи. Будущие исследования могут сосредоточиться на расширении датасетов, улучшении точности моделей и применении этого подхода к другим языкам и культурным контекстам.

Annotation:

Paralinguistic vocalizations-including non-verbal sounds like laughter and breathing, as well as lexicalized interjections such as "uhm" and "oh"-are integral to natural spoken communication. Despite their importance in conveying affect, intent, and interactional cues, such cues remain largely overlooked in conventional automatic speech recognition (ASR) and text-to-speech (TTS) systems. We present NVSpeech, an integrated and scalable pipeline that bridges the recognition and synthesis of parali...

ID: 2508.04195v1 cs.SD, cs.AI, cs.LG

arXiv PDF

Показано 41 - 47 из 47 записей