📚 Саммари научных статей из arXiv

Найдено 274 результатов по запросу 'cs.SD, cs.AI' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Maestro-EVC: Controllable Emotional Voice Conversion Guided by References and Explicit Prosody

2025-08-13

Авторы:

Jinsung Yoon, Wooyeol Jeong, Jio Gim, Young-Joo Suh

## Контекст Emotional Voice Conversion (EVC) является важной задачей в области речевых технологий, способствующей созданию эмоционально окрашенного голоса, сохраняющего языковой контент. Известно, что в ситуациях, где требуется контролируемое изменение эмоционального содержания речи, важно моделировать не только отдельные эмоциональные выражения, но и передавать их динамику во времени. Существующие методы часто сталкиваются с проблемами несовершенного разделения спикерской идентичности и эмоционального стиля, а также недостаточной моделирования динамики эмоционального выражения. Целью данной работы является разработка метода, который обеспечит контроль над контентом, спикерской идентичностью и эмоциональным стилем, а также улучшит передачу временных динамических особенностей эмоции в случае несоответствия просодических характеристик. ## Метод Мы предлагаем Maestro-EVC — многозадачный фреймворк для контролируемой эмоциональной голосовой конверсии. Он основывается на моделировании независимого разделения контента, спикерской идентичности и эмоции с помощью различных четко отделенных референсов. Для лучшего передачи динамики эмоции во времени мы предлагаем новую темпоральную представление эмоции, а также вводим эксплититный просодический моделирование с помощью усиления просодии. Мы используем архитектуру, основанную на transformer, для эффективного извлечения и контроля этих атрибутов. Эта модель обеспечивает высококачественные эмоциональные изменения речи, даже при несоответствии просодических особенностей. ## Результаты Мы проводили эксперименты с различными данными, включая синтезированные и реальные речевые выражения с разными эмоциональными стилями. В результате показаны высокие показатели улучшения дисентеграции атрибутов речи, как по спикерской идентичности, так и по эмоциональному стилю. Мы также провели сравнение с другими подходами, демонстрируя преимущества Maestro-EVC в том, что он обеспечивает более точный контроль над эмоциональными изменениями. Особенно выдающимися результатами показался Maestro-EVC в задаче сегментации временных эмоциональных динамик, даже при просодически несовпадающих условиях. ## Значимость Maestro-EVC может быть применен в различных областях, включая создание эмоционально окрашенных голосовых помощников, лингвистических исследований, а также в сфере интерактивных технологий. Он предоставляет значительные преимущества в сравнении с традиционными методами, такими как улучшенная точность контроля и лучшая моделирование динамики эмоциональных звуков. Этот подход может оказаться важным для развития новых возможностей в области разговорных интерфейсов, где эмоции и

Annotation:

Emotional voice conversion (EVC) aims to modify the emotional style of speech while preserving its linguistic content. In practical EVC, controllability, the ability to independently control speaker identity and emotional style using distinct references, is crucial. However, existing methods often struggle to fully disentangle these attributes and lack the ability to model fine-grained emotional expressions such as temporal dynamics. We propose Maestro-EVC, a controllable EVC framework that enab...

ID: 2508.06890v1 cs.SD, cs.AI, cs.CL, eess.AS

arXiv PDF

📄 Whisfusion: Parallel ASR Decoding via a Diffusion Transformer

2025-08-13

Авторы:

Taeyoun Kwon, Junhyuk Ahn, Taegeun Yun, Heeju Jwa, Yoonchae Choi, Siwon Park, Nam-Joon Kim, Jangchan Kim, Hyun Gon Ryu, Hyuk-Jae Lee

## Контекст Поиск эффективных решений для автоматического распознавания речи (ASR) является ключевым заданием в современной технике, особенно в задачах необходимости реального времени, таких как реального времени генерации субтитров и транскрибирования мероприятий. Несмотря на прогресс в этой области, существуют серьезные вызовы, связанные с тем, чтобы достичь низкой задержки и высокой точности в реальном времени. Традиционные последовательные авторегрессионные (AR) декодеры часто сталкиваются с проблемой задержек из-за того, что каждый токен генерируется последовательно. Неавторегрессионные (NAR) методы, с другой стороны, снимают эту задержку но не всегда обеспечивают высокую точность. Этот контекст поднимает вопрос о создании архитектур, которые объединяют выгоды архитектур AR и NAR для решения задачи ASR. ## Метод Whisfusion представляет собой инновационный подход к решению этой проблемы, объединяя предварительно обученный Whisper-encoder (текстовой модели) с диффузионным декодером (для генерации речи). Диффузионный подход отличается тем, что он предполагает работу с всем акустическим контекстом одновременно в каждом шаге декодирования, что позволяет решить проблему задержек, связанных с AR-декодерами. Для улучшения понимания между двумя моделями (текстовой и звуковой) в Whisfusion введена лёгкая сеть cross-attention adapter, которая позволяет эффективно изменять репрезентации данных. Также введена новая стратегия многошагового декодирования, которая позволяет увеличить число кандидатов для поиска токена, увеличивая точность без существенного влияния на скорость работы. ## Результаты Для оценки эффективности Whisfusion проводились эксперименты с использованием данных из набора LibriSpeech (960 часов). Это позволило сравнить результаты с другими моделями, включая Whisper-tiny. Результаты показали, что Whisfusion достигает ниже среднего Word Error Rate (WER) в сравнении с Whisper-tiny (8.3% vs. 9.7%), при этом сохраняя почти одинаковую задержку для коротких аудиофрагментов. Особенно заметное преимущество Whisfusion проявляется при работе с длинными аудиозаписями, где оно значительно ускоряется по сравнению с AR-декодерами, достигая до 2.6x быстрее. Эти результаты показывают, что Whisfusion может стать эффективной альтернативой для решения задач ASR в сценариях с длинными аудио. ## Значимость Whisfusion открывает новые перспективы для ASR-систем, особенно в области реального времени, где необходима высокая скорость и точность. Он может быть применен в различных сферах, включая реального времени генерацию субтитров, транскрибирование мероприятий и устройства с низким потреблением ресурсов

Annotation:

Fast Automatic Speech Recognition (ASR) is critical for latency-sensitive applications such as real-time captioning and meeting transcription. However, truly parallel ASR decoding remains challenging due to the sequential nature of autoregressive (AR) decoders and the context limitations of non-autoregressive (NAR) methods. While modern ASR encoders can process up to 30 seconds of audio at once, AR decoders still generate tokens sequentially, creating a latency bottleneck. We propose Whisfusion,...

ID: 2508.07048v1 cs.SD, cs.AI, cs.LG, eess.AS

arXiv PDF

📄 A Small-footprint Acoustic Echo Cancellation Solution for Mobile Full-Duplex Speech Interactions

2025-08-13

Авторы:

Yiheng Jiang, Tian Biao

## Контекст Полнодуплексная разговорная интерактивная система представляет собой важное технологическое решение, позволяющее одновременно отправлять и получать голосовые сообщения. Однако в этих системах возникает проблема звукового эхоа, которая значительно влияет на качество сигнала и удобство использования. Эхо может возникать из-за различных факторов, включая ненадежные аппаратные решения и нетривиальные звуковые окружения. Эффективное решение этой проблемы требует эффективного решения вопросов с акустическим эхом и задержкой в работе системы. Недостаточная качественная обработка звука приводит к недостаточной активности в системе Voice Activity Detection (VAD) и снижению качества распознавания речи при использовании Automatic Speech Recognition (ASR). Обеспечение качественной обработки звука является ключевым для повышения удобства и эффективности пользователей в полнодуплексных системах. ## Метод Для решения указанных проблем мы предлагаем алгоритм, основанный на нейронных сетях, с целью улучшить качество акустического эхоа. Мы внедрили различные методы регуляризации и увеличения генеративной мощности модели. Это позволяет увеличить устойчивость модели в различных звуковых условиях и с постоянно меняющимися условиями окружения. Мы также ввели развитие модели прогрессивно, чтобы улучшать качество акустического эхоа в ходе обучения. Для повышения качества сигнала, мы представили пост-процессинг стратегии, которая использует параметры, настроенные специально для возможности Voice Activity Detection (VAD) и Automatic Speech Recognition (ASR). Эти параметры позволяют включить адаптивность для этих задач и улучшить их результаты. Наконец, мы разработали модель с небольшим размером, которая поддерживает стриминговую обработку, что позволяет ее использовать в мобильных устройствах без заметных задержек. ## Результаты Мы проверили эффективность нашего подхода в нескольких экспериментах. Мы проверили качество акустического эхоа, используя такие показатели, как Echo Return Loss Enhancement (ERLE) и Perceptual Evaluation of Speech Quality (PESQ). Результаты показали, что наша модель превосходит существующие алгоритмы в этих показателях. Мы также проверили качество работы VAD и ASR, используя наши пост-процессинговые стратегии, и обнаружили, что они улучшают качество распознавания речи и активности голоса в системе. Эти результаты подтверждают, что наш подход повышает качество работы полнодуплексных систем, особенно в мобильных устройствах. ## Значимость Наша модель имеет широкие области применения в системах полнодуплексной разговорной интерактивности, включая мобильные приложения, устройства с голосовым помощником и телекоммуникационные системы. Основные преимущества на

Annotation:

In full-duplex speech interaction systems, effective Acoustic Echo Cancellation (AEC) is crucial for recovering echo-contaminated speech. This paper presents a neural network-based AEC solution to address challenges in mobile scenarios with varying hardware, nonlinear distortions and long latency. We first incorporate diverse data augmentation strategies to enhance the model's robustness across various environments. Moreover, progressive learning is employed to incrementally improve AEC effectiv...

ID: 2508.07561v1 cs.SD, cs.AI, eess.AS

arXiv PDF

📄 SCDF: A Speaker Characteristics DeepFake Speech Dataset for Bias Analysis

2025-08-13

Авторы:

Vojtěch Staněk, Karel Srna, Anton Firc, Kamil Malinka

## Контекст В последние годы возрастает внимание к проблемам глубокой фальшивости (deepfake) в речи, однако многие аспекты, такие как биазы и справедливость, остаются значительно недокрашенными. Это приводит к несбалансированному представлению в данных и несправедливости в результатах детектирования. Добиться более справедливой системы детектирования deepfake зачастую трудно из-за отсутствия представления различных демографических групп. Наша мотивация заключается в разработке справедливой и эффективной системы, которая будет учитывать эти факторы и устранять вклинивающиеся дискриминационные биазы. ## Метод Датасет SCDF (Speaker Characteristics Deepfake) был создан с целью охватить широкий диапазон демографических характеристик, включая пол, язык, возраст и тип генератора речи. Он включает более 237,000 утверждений, моделируемых с использованием многоязычных моделей глубокого обучения. Методология включает в себя подготовку и анализ данных, а также выполнение экспериментов с несколькими алгоритмами детектирования, чтобы исследовать точность и биазы в разных демографических группах. Это предоставляет возможность выявить и устранить существующие необходимые отклонения в системе. ## Результаты В результате экспериментов, проведенных с использованием SCDF, было показано, что дискриминационные биазы влияют на результаты детектирования deepfake. Например, системы оказались более точными для определенных групп (например, молодых мужчин), но менее точными для других (таких как пожилые женщины). Эти результаты подтверждают, что характеристики речи, такие как пол, язык и возраст, влияют на точность детектирования. Был также выявлен более широкий характер дискриминационных отклонений, включая технологии генерации голоса. ## Значимость SCDF может использоваться для разработки систем детектирования deepfake, которые будут более справедливыми и нейтральными в отношении различных демографических групп. Это дает возможность снизить отклонения в системах, улучшить их эффективность и сделать их более включающими. Это может привести к развитию и экосистемы, где системы deepfake будут более этичными и удовлетворять регулирующим требованиям. ## Выводы SCDF представляет собой первый широко изучаемый датасет, позволяющий оценивать дискриминационные биазы в системах детектирования deepfake. Он открывает путь для будущих исследований в области справедливости и этики в сфере глубокой фальшивости. Наша работа также подчеркивает важность развития систем, которые будут у

Annotation:

Despite growing attention to deepfake speech detection, the aspects of bias and fairness remain underexplored in the speech domain. To address this gap, we introduce the Speaker Characteristics Deepfake (SCDF) dataset: a novel, richly annotated resource enabling systematic evaluation of demographic biases in deepfake speech detection. SCDF contains over 237,000 utterances in a balanced representation of both male and female speakers spanning five languages and a wide age range. We evaluate sever...

ID: 2508.07944v1 cs.SD, cs.AI, cs.CR

arXiv PDF

📄 Bridging ASR and LLMs for Dysarthric Speech Recognition: Benchmarking Self-Supervised and Generative Approaches

2025-08-13

Авторы:

Ahmed Aboeitta, Ahmed Sharshar, Youssef Nafea, Shady Shehata

## Контекст Синтетическая параллельная ассоциация (Speech Recognition, ASR) является важной задачей в области обработки естественного языка, которая направлена на то, чтобы конвертировать речевые сигналы в текст. Однако, речевые сигналы, пострадавшие от дисартрии, представляют собой особый вызов для ASR из-за сочетания значительных расхождений в произношении, вызванных звуковыми и грамматическими искажениями, а также вариабельности произношения. Эти факторы сильно сказываются на качестве распознавания, чаще всего приводят к высокой стоимости ошибок. Несмотря на прогресс в сфере машинного обучения, в том числе с использованием самостоятельно организованных (self-supervised) моделей ASR, таких как Wav2Vec, HuBERT и Whisper, их эффективность в распознавании речи дисартрии остается неоднозначной. Этот аспект мотивирует разработку новых подходов, которые могут улучшить распознавание речи дисартрии, учитывая сложившуюся ситуацию. ## Метод Для решения этой проблемы были задействованы несколько ASR-моделей, включая Wav2Vec, HuBERT, и Whisper, в сочетании с различными стратегиями декодирования: CTC, seq2seq, и генерирующими моделями типа BART, GPT-2, и Vicuna. Эти модели были доведены до состояния приемлемого рабочего состояния с помощью данных, специально подготовленных для распознавания речи дисартрии. Архитектура включала стандартные слои преобразования фичи, выделение эмбединга, а также слои для моделирования постоянных представлений звуков. Для оценки эффективности систем были использованы метрики, такие как Word Error Rate (WER), обобщенность моделей была оценена с помощью перекрестной оценки тестовых данных. Были применены техники, такие как преобразование наборов данных и методы вероятностного декодирования, для улучшения общей точности и обобщаемости систем. ## Результаты В ходе экспериментов проанализированы показатели распознавания речи дисартрии с использованием различных моделей ASR и декодирования. Оказалось, что LLM-подключенные стратегии декодирования, такие как BART и Vicuna, показали существенный улучшение в точности, особенно в случае с сильно дисартрическими сигналами. Исследование показало, что эти модели могут улучшить распознавание, используя грамматические и лексические контексты для улучшения интеллектуальности и точности. Также было отмечено, что различные модели ASR показали различия в производительности в зависимости от серьезности дисартрии. Для улучшения общей обобщаемости, были применены методы скрещивания данных, что позволило улучшить поведение моделей на неизвестных данных. ## Значимость Результаты работы имеют значимую значимост

Annotation:

Speech Recognition (ASR) due to phoneme distortions and high variability. While self-supervised ASR models like Wav2Vec, HuBERT, and Whisper have shown promise, their effectiveness in dysarthric speech remains unclear. This study systematically benchmarks these models with different decoding strategies, including CTC, seq2seq, and LLM-enhanced decoding (BART,GPT-2, Vicuna). Our contributions include (1) benchmarking ASR architectures for dysarthric speech, (2) introducing LLM-based decoding to i...

ID: 2508.08027v1 cs.SD, cs.AI, eess.AS

arXiv PDF

📄 DAFMSVC: One-Shot Singing Voice Conversion with Dual Attention Mechanism and Flow Matching

2025-08-12

Авторы:

Wei Chen, Binzhu Sha, Dan Luo, Jing Yang, Zhuo Wang, Fan Fan, Zhiyong Wu

#### Контекст Singing Voice Conversion (SVC) является важной задачей в сфере музыкальных технологий, нацеленной на преобразование голоса источника в голос целевого исполнителя, сохраняя мелодию и текст. Особенно вызов составляет обеспечение качества звука и точность передачи голосового значения при преобразовании между незнакомыми голосами. Существующие методы часто сталкиваются с проблемами, такими как несогласованность звука или потеря естественности, что приводит к снижению качества генерируемого звука. Наша мотивация заключается в разработке метода, который бы решал эти проблемы и позволял эффективно преобразовывать голосовое выражение в рамках любого-к-любому SVC. #### Метод Мы предлагаем DAFMSVC (Dual Attention Flow Matching for Singing Voice Conversion) с рядом уникальных компонентов. Во-первых, мы заменяем самостоятельно выученные функции источника на самые близкие функции целевого звука, чтобы избежать проблемы "leakage" звука. Во-вторых, мы реализуем двойной кросс-аттенционный механизм для эффективного объединения эмбеддингов речи, мелодии и лингвистического контента. В-третьих, вводится модуль под названием Flow Matching, который основывается на методе течения потока стохастических процессов для высококачественной генерации аудио. Эта архитектура обеспечивает глубокую интеграцию между звуковыми особенностями и языковыми признаками, чтобы получать естественный и точный SVC. #### Результаты Мы проводим эксперименты на различных данных, включая независимую выборку гласных и согласных, а также реальные аудиозаписи. Мы сравниваем DAFMSVC с тремя современными методами SVC. Результаты показывают, что наш метод обеспечивает существенное улучшение точности в тестировании качества звука (STOI, PESQ) и показателей естественности (MOS) по сравнению с конкурентами. Наблюдается заметное сокращение в завышении звука и расхождении в периоде, что демонстрирует эффективность DAFMSVC в преобразовании голоса. #### Значимость DAFMSVC может быть применен в различных областях, таких как создание музыкальных композиций, тренировка моделей голоса, и личное использование генерации звуков. Его преимущества заключаются в высокой точности подгонки голоса, естественности генерируемых звуков и общей эффективности в обработке голосовых данных. Данный подход может способствовать развитию новых технологий в области звуковой обработки и искусственного интеллекта. #### Выводы Мы успешно разработали DAFMSVC, который представляет собой новый подход к one-shot SVC. Метод демонстрирует превосходство в расширении технических показателей и качестве звука по с

Annotation:

Singing Voice Conversion (SVC) transfers a source singer's timbre to a target while keeping melody and lyrics. The key challenge in any-to-any SVC is adapting unseen speaker timbres to source audio without quality degradation. Existing methods either face timbre leakage or fail to achieve satisfactory timbre similarity and quality in the generated audio. To address these challenges, we propose DAFMSVC, where the self-supervised learning (SSL) features from the source audio are replaced with the ...

ID: 2508.05978v1 cs.SD, cs.AI, cs.LG

arXiv PDF

📄 MeanAudio: Fast and Faithful Text-to-Audio Generation with Mean Flows

2025-08-12

Авторы:

Xiquan Li, Junxi Liu, Yuzhe Liang, Zhikang Niu, Wenxi Chen, Xie Chen

#### Контекст Современные текст-то-аудио (TTA) системы позволяют генерировать аудио из текста, применяя различные модели, такие как diffusion-based и flow-based. Эти модели достигли высокого качества синтеза аудио и хорошего контроля над процессом. Однако они страдают от значительного замедления в процессе вывода, что существенно ограничивает их практическую применимость. Мотивацией для настоящего исследования является развитие быстрой и точной TTA-системы, которая обладает высокой скоростью вывода и гарантирует качественную генерацию аудио. #### Метод MeanAudio — это новая модель, основанная на MeanFlow, разработанная специально для решения проблемы медлительного вывода в TTA. Основой модели является Flux-стильный трансформер, который регрессирует среднюю векторное поле во время обучения. Это позволяет эффективно генерировать аудио, осуществляя прямую траекторию от начала до конца потока. Использование classifier-free guidance (CFG) в обучении не добавляет дополнительных затрат в процессе направленного семплирования. Для улучшения стабильности обучения и развития модели в ранних этапах предложена интуитивная интерпретация с курсивом потока, которая помогает модели усвоить основные динамические характеристики, а затем приспособиться к средним потокам. #### Результаты Эксперименты показали, что MeanAudio достигает лидирующей по скорости генерации звука с реальным временем вывода (RTF) в 0,013 на NVIDIA RTX 3090, что является примерно 100 раз быстрее, чем современные diffusion-based TTA-системы. В то же время, модель поддерживает высокое качество генерации в многошаговой синтезе, обеспечивая плавные и гармоничные переходы между последовательными синтезированными участками аудио. Это достигается благодаря проработанной стратегии обучения, которая позволяет модели пройти фазу упрощенного обучения и перейти к более сложному генерированию. #### Значимость MeanAudio открывает путь к новому поколению TTA-систем, которые могут быть использованы в реальном времени благодаря их высокой скорости работы. Она применима в области генерирования естественного звука для видео, игр, виртуальных ассистентов и других приложений, где скорость генерации звука критична. Благодаря своей эффективности и качеству, MeanAudio имеет потенциал для широкого применения в индустрии и исследованиях. #### Выводы Результаты нашего исследования подтверждают, что MeanAudio является новаторским подходом к TTA-генерации, который обеспечивает высокую скорость вывода и качество генерации. Будущие исследования будут направлены на улучшение точности генерации, расширение скорости вывода на более сложных сценариях и исследование возможностей модели в различных ко

Annotation:

Recent developments in diffusion- and flow- based models have significantly advanced Text-to-Audio Generation (TTA). While achieving great synthesis quality and controllability, current TTA systems still suffer from slow inference speed, which significantly limits their practical applicability. This paper presents MeanAudio, a novel MeanFlow-based model tailored for fast and faithful text-to-audio generation. Built on a Flux-style latent transformer, MeanAudio regresses the average velocity fiel...

ID: 2508.06098v1 cs.SD, cs.AI

arXiv PDF

📄 SpeakerLM: End-to-End Versatile Speaker Diarization and Recognition with Multimodal Large Language Models

2025-08-12

Авторы:

Han Yin, Yafeng Chen, Chong Deng, Luyao Cheng, Hui Wang, Chao-Hong Tan, Qian Chen, Wen Wang, Xiangang Li

## Контекст Вопрос определения "кто говорил, когда и что" (Speaker Diarization and Recognition, SDR) является ключевым заданием в решении задач обработки речи в реальных мультиспикерских сценариях, таких как транскрипция митингов и системы диалогов. Традиционные модели SDR часто используют каскадный подход, объединяя модули диагностики речи (SD) и автоматической распознавательной речи (ASR). Однако этот подход страдает от проблемы пропускания ошибок, сложности обработки перекрывающейся речи и отсутствия совместной оптимизации для извлечения синергии между SD и ASR. Целью данной работы является разработка продвинутой модели, которая могла бы объединить эти задачи в единую модель и сделать ее более универсальной и эффективной в многоголосых ситуациях. ## Метод Мы предлагаем SpeakerLM, универсальную модель на основе больших языковых моделей, которая выполняет диагностику речи и распознавание речи в рамках единого процесса. Модель обучается в составе многоэтапного процесса на основе больших наборов реальных данных. Чтобы улучшить ее универсальность, в модель внедрен механизм регистрации речи в режиме реального времени, который позволяет ей работать в различных условиях регистрации голосов. Эта модель является новаторским подходом к решению SDR, где оба процесса (диагностика речи и распознавание речи) объединены в единую модель и могут работать в реальном времени. ## Результаты Мы проводили тестирование модели SpeakerLM на нескольких важных бенчмарк-наборах данных SDR, включая в домене и за его пределами. У нас были проведены эксперименты с разными условиями регистрации речи, включая ситуации с значительным количеством регистрируемых речи и меньшим. Результаты показывают, что SpeakerLM превосходит современные каскадные модели SDR в области как внутридоменных, так и внедоменных задач. Было установлено, что модель обладает высокой сходимостью и обрабатывает перекрывающуюся речь эффективно. Также, механизм регистрации голосов продемонстрировал свою эффективность в обеспечении устойчивости модели в разных условиях регистрации. ## Значимость Результаты SpeakerLM могут быть применены в различных реальных сценариях, таких как транскрипция митингов, системы диалогов и устройства для управления голосом. Возможность объединять диагностику речи и распознавание речи в единую модель увеличивает эффективность и уменьшает возможность ошибок в различных задачах. Механизм регистрации речи делает модель более универсальной и пригодной для применения в разных реальных ситуациях. Этот подход может эффективно улучшить качество работы систем диалогов, автоматических транскрибировщиков и других систем, которым требуется рабо

Annotation:

The Speaker Diarization and Recognition (SDR) task aims to predict "who spoke when and what" within an audio clip, which is a crucial task in various real-world multi-speaker scenarios such as meeting transcription and dialogue systems. Existing SDR systems typically adopt a cascaded framework, combining multiple modules such as speaker diarization (SD) and automatic speech recognition (ASR). The cascaded systems suffer from several limitations, such as error propagation, difficulty in handling ...

ID: 2508.06372v1 cs.SD, cs.AI

arXiv PDF

📄 Robust Target Speaker Diarization and Separation via Augmented Speaker Embedding Sampling

2025-08-12

Авторы:

Md Asif Jalal, Luca Remaggi, Vasileios Moschopoulos, Thanasis Kotsiopoulos, Vandana Rajan, Karthikeyan Saravanan, Anastasis Drosou, Junho Heo, Hyuk Oh, Seokyeong Jeong

## Контекст Одной из основных проблем в области распознавания речи является сопоставление слов говорящих с их источниками. Достижения в этой области имеют большое значение для практических применений, таких как автоматическая система распознавания речи, контроль разговорных телефонов, лексикологическая исследовательская работа и другие. Несмотря на некоторые успехи в районе диаризации речи и разделения речевых сигналов, существуют вызовы, связанные с неопределенностью поддерживающих сигналов, например, когда некоторые говорящие не имеют достаточных признаков для идентификации. Дополнительные трудности возникают при переносе этих моделей в реальные среды, где звуковые сигналы подвержены шумам и другим искажениям. Это преобразование становится еще более сложным при необходимости распознавать неизвестных говорящих без предварительного обучения на этих говорящих. ## Метод Мы предлагаем новую архитектуру, которая автоматически идентифицирует говорящих в аудио-сигнале без предварительного опознавания. Метод состоит из двух этапов: стадия обучения и стадия оценки. В первой стадии мы используем автоматическую систему для выделения особенностей речи, которые позволяют идентифицировать различных говорящих. Эта система проводит автоматическое извлечение эмбеддингов речи из каждого говорящего с помощью модели, обученной на большом аннотированном наборе данных. Во второй стадии мы используем эти эмбеддинги для выделения случаев, когда говорящие пересекаются в речи (overlap), и для эффективного отделения речи каждого говорящего. Мы также внедрили потери для обучения, которые улучшают точность диаризации в случаях пересекающейся речи. ## Результаты Мы провели эксперименты на нескольких значительных датасетах, включая AMI, DiDi, и LibriCSS. Наша модель представляет собой существенный прогресс по сравнению с текущими лучшими результатами в области диаризации речи. Мы достигли **71% относительного улучшения в DER (Диаризационная ошибка)** и **69% относительного улучшения в cpWER (CPU Word Error Rate)**. Эти результаты показали, что наш подход эффективен в ситуациях, когда говорящие неизвестны в момент обучения. Мы также проверили точность нашей модели в условиях сильного шума и пересечений речи, и она показала себя лучше, чем существующие модели. ## Значимость Наш подход имеет широкие применения в реальной жизни, включая контроль разговорных систем, устройства с автоматическим распознаванием речи, и системы распознавания речи в мультиговорящих средах. Он также имеет преимущество в том, что он не требует предварительного

Annotation:

Traditional speech separation and speaker diarization approaches rely on prior knowledge of target speakers or a predetermined number of participants in audio signals. To address these limitations, recent advances focus on developing enrollment-free methods capable of identifying targets without explicit speaker labeling. This work introduces a new approach to train simultaneous speech separation and diarization using automatic identification of target speaker embeddings, within mixtures. Our pr...

ID: 2508.06393v1 cs.SD, cs.AI

arXiv PDF

📄 Inference-time Scaling for Diffusion-based Audio Super-resolution

2025-08-09

Авторы:

Yizhu Jin, Zhen Ye, Zeyue Tian, Haohe Liu, Qiuqiang Kong, Yike Guo, Wei Xue

Задача улучшения аудиокачества через суперрезолюцию широко применяется в музыке, голосовых синтезаторах и постпродакшене. Однако существующие методы, основанные на моделях шума-диффузии, сталкиваются с ограничениями, связанными с хаотичностью стохастического процесса семплирования. Наша работа предлагает новый подход к решению этой проблемы, основанный на парадигме **inference-time scaling**. Вместо увеличения количества семплирований, мы используем множество поисковых алгоритмов и задачи-источники проверки (verifiers) для эффективного исследования высокомерного пространства решений. Это позволяет нам направлять семплирование в наиболее выгодные направления, повышая качество результатов. Мы провели широкие эксперименты, подтверждающие повышение качества аудио в области речи, музыки и звуковых эффектов, с улучшениями до 9.70% в красоте, 5.88% в согласованности голоса и 46.98% в метрике спектрального расстояния при увеличении частоты за счет 4 кГц до 24 кГц. Это демонстрирует эффективность нашего подхода в решении задачи суперрезолюции аудиоданных.

Annotation:

Diffusion models have demonstrated remarkable success in generative tasks, including audio super-resolution (SR). In many applications like movie post-production and album mastering, substantial computational budgets are available for achieving superior audio quality. However, while existing diffusion approaches typically increase sampling steps to improve quality, the performance remains fundamentally limited by the stochastic nature of the sampling process, leading to high-variance and quality...

ID: 2508.02391v1 cs.SD, cs.AI, eess.AS

arXiv PDF

1
2
24
25
26
27
28

Показано 251 - 260 из 274 записей