📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 RosettaSpeech: Zero-Shot Speech-to-Speech Translation from Monolingual Data

2025-11-27

Авторы:

Zhisheng Zheng, Xiaohang Sun, Tuan Dinh, Abhishek Yanamandra, Abhinav Jain, Zhu Liu, Sunil Hadap, Vimal Bhat, Manoj Aggarwal, Gerard Medioni, David Harwath

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

The scarcity of parallel speech corpora critically hampers speech-to-speech translation (S2ST), often forcing reliance on complex, multi-stage pipelines. This paper introduces RosettaSpeech, a novel and simplified framework for zero-shot S2ST that is trained on monolingual speech-text data augmented by machine translation supervision. While our method leverages the linguistic knowledge inherent in text-based NMT models, it strictly eliminates the need for parallel speech-to-speech pairs. Our mod...

ID: 2511.20974v1 eess.AS, cs.CL, cs.LG

arXiv PDF

📄 DiSTAR: Diffusion over a Scalable Token Autoregressive Representation for Speech Generation

2025-10-17

Авторы:

Yakun Song, Xiaobin Zhuang, Jiawei Chen, Zhikang Niu, Guanrou Yang, Chenpeng Du, Dongya Jia, Zhuo Chen, Yuping Wang, Yuxuan Wang, Xie Chen

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Recent attempts to interleave autoregressive (AR) sketchers with diffusion-based refiners over continuous speech representations have shown promise, but they remain brittle under distribution shift and offer limited levers for controllability. We introduce DISTAR, a zero-shot text-to-speech framework that operates entirely in a discrete residual vector quantization (RVQ) code space and tightly couples an AR language model with a masked diffusion model, without forced alignment or a duration pred...

ID: 2510.12210v2 eess.AS, cs.CL, cs.LG

arXiv PDF

📄 Two Heads Are Better Than One: Audio-Visual Speech Error Correction with Dual Hypotheses

2025-10-17

Авторы:

Sungnyun Kim, Kangwook Jang, Sungwoo Cho, Joon Son Chung, Hoirin Kim, Se-Young Yun

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

This paper introduces a new paradigm for generative error correction (GER) framework in audio-visual speech recognition (AVSR) that reasons over modality-specific evidences directly in the language space. Our framework, DualHyp, empowers a large language model (LLM) to compose independent N-best hypotheses from separate automatic speech recognition (ASR) and visual speech recognition (VSR) models. To maximize the effectiveness of DualHyp, we further introduce RelPrompt, a noise-aware guidance me...

ID: 2510.13281v1 eess.AS, cs.CL, cs.LG

arXiv PDF

📄 DiSTAR: Diffusion over a Scalable Token Autoregressive Representation for Speech Generation

2025-10-16

Авторы:

Yakun Song, Xiaobin Zhuang, Jiawei Chen, Zhikang Niu, Guanrou Yang, Chenpeng Du, Zhuo Chen, Yuping Wang, Yuxuan Wang, Xie Chen

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

ID: 2510.12210v1 eess.AS, cs.CL, cs.LG

arXiv PDF

📄 TAU: A Benchmark for Cultural Sound Understanding Beyond Semantics

2025-10-02

Авторы:

Yi-Cheng Lin, Yu-Hua Chen, Jia-Kai Dong, Yueh-Hsuan Huang, Szu-Chi Chen, Yu-Chen Chen, Chih-Yao Chen, Yu-Jung Lin, Yu-Ling Chen, Zih-Yu Chen, I-Ning Tsai, Hsiu-Hsuan Wang, Ho-Lam Chung, Ke-Han Lu, Hung-yi Lee

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Large audio-language models are advancing rapidly, yet most evaluations emphasize speech or globally sourced sounds, overlooking culturally distinctive cues. This gap raises a critical question: can current models generalize to localized, non-semantic audio that communities instantly recognize but outsiders do not? To address this, we present TAU (Taiwan Audio Understanding), a benchmark of everyday Taiwanese "soundmarks." TAU is built through a pipeline combining curated sources, human editing,...

ID: 2509.26329v1 eess.AS, cs.CL, cs.LG, cs.SD

arXiv PDF

📄 Breathing and Semantic Pause Detection and Exertion-Level Classification in Post-Exercise Speech

2025-09-23

Авторы:

Yuyu Wang, Wuyue Xia, Huaxiu Yao, Jingping Nie

## Контекст Область исследования связана с анализом пост-тренировочной речи, которая содержит богатые физиологические и языковые сигналы. Эти сигналы отражают различные аспекты физиологического состояния человека, включая темп восстановления, функцию легких и уровень утомления. Одним из ключевых аспектов является выявление и различение различных типов пауз в речи - семантических, дыхательных и комбинированных. Эти паузы могут свидетельствовать о различных физиологических процессах и их отклонениях. Несмотря на важность этого вопроса, существующие работы на этой теме остаются ограниченными, особенно в контексте использования современных методов анализа данных. Мотивация для этого исследования основывается на необходимости создания более точных и надежных систем, которые могут анализировать пост-тренировочную речь и давать быстрые выводы о состоянии здоровья человека. ## Метод Для решения поставленных задач использована систематическая методология, включающая несколько этапов. В качестве исходных данных использовался специально созданный датасет, содержащий синхронизированные аудио- и респираторные сигналы. Для распознавания пауз использовались модели глубокого обучения, такие как GRU, 1D CNN-LSTM, AlexNet и VGG16, а также различные акустические признаки, такие как MFCC и MFB. Также были рассмотрены представления слоёв Wav2Vec2. Методы включили как классификационные, так и регрессионные подходы. Для лучшей точности и объёмности выявления различных типов пауз была разработана двухступенчатая модель - сначала происходит детекция, затем классификация. ## Результаты В ходе экспериментов было получено несколько важных результатов. Для распознавания семантических пауз была достигнута точность до 89%. Для дыхательных пауз - до 55%, а для комбинированных - до 86%. Общая точность распознавания пауз составила 73%. Для классификации уровня утомления после тренировки была достигнута точность 90.5%. Эти результаты превышают показатели предыдущих исследований, что демонстрирует эффективность предложенной модели. ## Значимость Предложенная модель может применяться в различных областях, включая медицину, спорт, исследования физиологических процессов. Она обладает высокой точностью и может быть использована для мониторинга здоровья и оценки уровня утомления после физической нагрузки. Наиболее значимыми преимуществами являются точность распознавания различных типов пауз и возможность интеграции с другими системами мониторинга здоровья. Это может повлиять на развитие

Annotation:

Post-exercise speech contains rich physiological and linguistic cues, often marked by semantic pauses, breathing pauses, and combined breathing-semantic pauses. Detecting these events enables assessment of recovery rate, lung function, and exertion-related abnormalities. However, existing works on identifying and distinguishing different types of pauses in this context are limited. In this work, building on a recently released dataset with synchronized audio and respiration signals, we provide s...

ID: 2509.15473v1 eess.AS, cs.CL, cs.LG, cs.SD

arXiv PDF

📄 Unified Learnable 2D Convolutional Feature Extraction for ASR

2025-09-16

Авторы:

Peter Vieting, Benedikt Hilmes, Ralf Schlüter, Hermann Ney

#### Контекст Автоматический распознавание речи (ASR) является ключевым направлением в области обработки естественного языка, стремящимся преодолеть барьеры между людьми и машинами. Существующие системы ASR часто полагаются на традиционные методы для извлечения акустических признаков, такие как Mel-frequency cepstral coefficients (MFCCs) или linear prediction coefficients (LPCs). Однако эти методы имеют ограничения в обработке сложных акустических сценариев. Нейронные сети предлагают возможность извлечения более высокого качества признаков, оптимизированных для конкретных задач ASR. Несмотря на это, многие из них остаются привязаны к классическим моделям, что существенно снижает потенциал универсальности и гибкости. Наше исследование рассчитано на развитие более универсальной архитектуры для извлечения признаков, которая бы была эффективной для различных ASR-систем. #### Метод Для решения проблемы стандартизированных методов извлечения признаков мы предлагаем новую архитектуру, сочетающую 2D-конволюционные сети с новыми адаптивными функциями для извлечения признаков. Методология основывается на двух основных предпосылках: 1) 2D-конволюционные слои позволяют извлекать признаки, учитывающие зависимости между звуковыми окружениями в пространстве и времени; 2) Универсальная модель не должна привязываться к конкретным предварительно обученным моделям или классическим методам. Мы предлагаем архитектуру с несколькими уровнями, которая может быть применена как в предобученных, так и в учебных сценариях. В нашей модели используется эффективный фреймворк для извлечения признаков, который учитывает объем вычислительных ресурсов, доступных в конкретных ситуациях. #### Результаты Для оценки эффективности предлагаемой модели мы провели серию экспериментов на различных данных ASR. Эти данные включали записи с высоким уровнем шума, с разным акцентом и разным языком. Мы сравнили результаты наших моделей с традиционными методами, такими как MFCCs и LPCs, а также с более современными нейронными моделями, такими как Wav2Vec и HuBERT. Наши результаты показали, что 2D-конволюционная модель показывает почти одинаковое качество признаков по сравнению с предварительно обученными моделями, при этом требуя меньших вычислительных ресурсов. Особое внимание уделялось влиянию универсальной архитектуры на уменьшение пропускаемой информации и повышение стабильности системы ASR в разных условиях. #### Значимость Предлагаемая модель может быть применена в разных сферах ASR, включая системы, работающие в реальном времени, а также в мобильных приложениях, где ограничены вычислительные ресур

Annotation:

Neural front-ends represent a promising approach to feature extraction for automatic speech recognition (ASR) systems as they enable to learn specifically tailored features for different tasks. Yet, many of the existing techniques remain heavily influenced by classical methods. While this inductive bias may ease the system design, our work aims to develop a more generic front-end for feature extraction. Furthermore, we seek to unify the front-end architecture contrasting with existing approaches...

ID: 2509.10031v1 eess.AS, cs.CL, cs.LG, cs.SD

arXiv PDF

📄 Error Analysis in a Modular Meeting Transcription System

2025-09-16

Авторы:

Peter Vieting, Simon Berger, Thilo von Neumann, Christoph Boeddeker, Ralf Schlüter, Reinhold Haeb-Umbach

## Контекст Meeting transcription является областью высокой актуальности и существенного прогресса в последние годы. Однако некоторые задачи в ней до сих пор остаются неразрешимыми. Одним из таких вызовов является анализ ошибок в модульных системах транскрибирования, которые могут влиять на качество транскрибирования. Исследователи стремятся к пониманию этих проблем, чтобы оптимизировать системы и минимизировать ошибки. Целью данного исследования является расширение фреймворка для анализа темпоральной локальности в системах сепарации речи и его применение для оценки ошибок в модульных системах транскрибирования. Ранее, анализ ошибок ограничивался одной точке времени, но в данной работе введена методика, которая учитывает темпоральную локальность, что позволяет более точно оценить ошибки. ## Метод Для анализа ошибок в модульных системах транскрибирования разработана новая методика, основанная на расширенной методологии для анализа темпоральной локальности. Эта методика применяется к системе, которая использует модульную архитектуру, включающую модули для сепарации речи, звуковой активности и распознавания речи. Методика включает в себя сравнение различных сегментаций, в том числе идеальной (оркестрованной) сегментации, легковесной сегментации на основе энергии и более сложными методами диаризации. Эксперименты проводились на данных LibriCSS, которые являются открытым ресурсом для тестирования систем транскрибирования. ## Результаты Результаты показывают, что такие методы диаризации, как x-vector и diarization с N-лучами, существенно сокращают разрыв с идеальной сегментацией по сравнению с простой энергий-based VAD. Тем не менее, остаётся заметный разрыв в третьей части результатов. Изучение этого разрыва показало, что основные факторы включают неточности в активности речи, синхронизацию между модулями и недостаточную точность распознавания речи в условиях высокого шума. Эти факторы определяют остаточные ошибки в системе. Более того, проведенный анализ позволил выявить, что прогресс в сепарации речи и diarization имеет существенное влияние на ошибки, но не устраняет их полностью. ## Значимость Результаты этой работы имеют большое значение для развития модульных систем транскрибирования. Они демонстрируют, что улучшение модулей сепарации речи и диаризации может привести к значительным улучшениям в качестве транскрибирования. Кроме того, работа показывает, что улучшение точности распознавания речи в условиях высокого шума и уменьшение неточностей в синхронизации модулей могут существенно уменьшить остаточные ошибки. В будущем, эти находки могут быть применены для со

Annotation:

Meeting transcription is a field of high relevance and remarkable progress in recent years. Still, challenges remain that limit its performance. In this work, we extend a previously proposed framework for analyzing leakage in speech separation with proper sensitivity to temporal locality. We show that there is significant leakage to the cross channel in areas where only the primary speaker is active. At the same time, the results demonstrate that this does not affect the final performance much a...

ID: 2509.10143v1 eess.AS, cs.CL, cs.LG, cs.SD

arXiv PDF

📄 DarkStream: real-time speech anonymization with low latency

2025-09-09

Авторы:

Waris Quamer, Ricardo Gutierrez-Osuna

## Контекст В modern era цифровых коммуникаций, защита частности говорящих становится ключевым вопросом, особенно при реализации реального времени. Speech anonymization становится важным средством для защиты идентичности говорящих в аудио- и видеоконтенте. Существующие методы, такие как возможность заменить голос на синтезированный, который не требует защиты идентичности, либо не учитывают другие нюансы, такие как языковые контексты. Такие проблемы могут привести к коллизиям в защите идентичности и потерей языковой интеллектуальности (WER). Таким образом, нужно разработать решение, которое обеспечит эффективную защиту идентичности без ущерба для языкового контента. DarkStream предлагает innovative approach, который решает эти проблемы в реальном времени. ## Метод DarkStream — это streaming speech synthesis model, который реализует real-time speaker anonymization. Он объединяет causal waveform encoder, который захватывает звуковые сигналы в реальном времени, short lookahead buffer для повышения accuracy при минимальных задержках, и transformer-based contextual layers для улучшения content encoding. Чтобы уменьшить inference time, model generates waveforms непосредственно с помощью neural vocoder, что устраняет intermediate mel-spectrogram conversions. Для защиты идентичности, DarkStream инжектирует GAN-generated pseudo-speaker embedding в linguistic features, полученные из content encoder. Этот approach обеспечивает strong anonymization при минимальном ущербе для linguistic intelligibility. ## Результаты Evaluations показывают, что DarkStream достигает strong anonymization, с EER (Equal Error Rate) speaker verification на значение около 50% в lazy-informed attack сценарии, что соответствует near-chance performance. Такое значение EER является критически важным для защиты идентичности. И, при этом, linguistic intelligibility сохраняется на удовлетворительном уровне, с WER (Word Error Rate) в районе 9%. Эти результаты указывают на баланс между low-latency, robust privacy и minimal intelligibility degradation, что делает DarkStream практичным решением для privacy-preserving real-time speech communication. ## Значимость DarkStream может быть применен в различных областях, таких как real-time communication, voice assistants, secure speech processing, и другие. Оно предоставляет несколько преимуществ, таких как: - **High-quality anonymization**, сохраняющая языковую интеллектуальность. - **Efficiency**, посредством removal intermediate mel-spectrogram conversions. - **Low-latency решение**, которое может быть использовано в real-time сценариях. Potential impact включает в себя улучшение privacy в digital communication, защиту частности говорящих, и повышение уровня security в системах voice authentication и других. ## Выводы DarkStream предлагает innovative approach для real-time speech anonymization, который достигает strong anonymization с низкой latency и сохраняет linguistic intelligibility. Это решение может иметь важное применение в различных областях, таких как voice assistants, secure communication, и другие. Будущие исследования будут сконцентрированы на улучшении model robustness, увеличении scalability, и улучшении звукового качества для более широкого применения в digital communication.

Annotation:

We propose DarkStream, a streaming speech synthesis model for real-time speaker anonymization. To improve content encoding under strict latency constraints, DarkStream combines a causal waveform encoder, a short lookahead buffer, and transformer-based contextual layers. To further reduce inference time, the model generates waveforms directly via a neural vocoder, thus removing intermediate mel-spectrogram conversions. Finally, DarkStream anonymizes speaker identity by injecting a GAN-generated p...

ID: 2509.04667v1 eess.AS, cs.CL, cs.LG

arXiv PDF

📄 Unseen Speaker and Language Adaptation for Lightweight Text-To-Speech with Adapters

2025-08-27

Авторы:

Alessio Falai, Ziyao Zhang, Akos Gangoly

#### Контекст Текстовое-к-речевое преобразование (Text-to-Speech, TTS) является важной областью искусственного интеллекта, которая обеспечивает синтез речи на основе текста. Одним из главных вызовов является синтез речи в неизвестных языках или с неизвестными речевыми идентичностями. Этот процесс важен для расширения приложений TTS, таких как локализация и доступность. Несмотря на прогресс в масштабируемых моделях, лёгкие модели TTS, оптимизированные для ресурсно-ограниченных устройств, становятся все более востребоваными. В этой работе мы изучаем добавление адаптеров к лёгким моделям TTS для решения проблемы неизвестных речевых и языковых идентичностей, чтобы достичь эффективного и точного синтеза голоса. #### Метод Мы используем адаптеровую архитектуру для улучшения лёгких моделей TTS. Адаптеры — небольшие модули, добавляемые к существующим моделям, чтобы научить их обучаться на новых речевых и языковых идентичностях без переобучения основной модели. Мы сравниваем две задачи: неизвестный голос и неизвестный язык. Для измерения качества синтеза мы используем традиционные метрики, такие как MOS (Mean Opinion Score), а также разрабатываем новую метрику, основанную на измерении акцента, чтобы оценить натуральность синтезированной речи в новом языке. Модель тренируется на существующих данных речи, а затем модифицируется с помощью адаптеров для обучения новых речевых и языковых признаков. #### Результаты Мы проводим эксперименты на широкой палитре речевых и языковых признаков, включая новые речевые идентичности и языки, для которых не было доступных никаких записей. Мы показываем, что адаптеры эффективно учитывают новую информацию о голосе и языке, улучшая качество синтеза. Благодаря нашей метрике акцента, мы также показываем, что синтезированная речь звучит натурально в новой среде. Мы также изучаем различные конфигурации адаптеров, такие как размер, место размещения и количество голосов, и показываем, что эти факторы влияют на качество синтеза. #### Значимость Наши результаты демонстрируют широкое применение адаптеров в лёгких текстово-речевых системах. Они могут быть использованы для синтеза речи на новых языках и с неизвестными речевыми идентичностями без необходимости обучать модель с нуля. Это значительно увеличивает производительность и дешевизну при развёртывании TTS в новых регионах и языках. Кроме того, мы показываем, как адаптеры могут быть настроены для минимизации «забывания» исходной знания модели, что является ключевым вызовом в машинном обучении. Наша работа такж

Annotation:

In this paper we investigate cross-lingual Text-To-Speech (TTS) synthesis through the lens of adapters, in the context of lightweight TTS systems. In particular, we compare the tasks of unseen speaker and language adaptation with the goal of synthesising a target voice in a target language, in which the target voice has no recordings therein. Results from objective evaluations demonstrate the effectiveness of adapters in learning language-specific and speaker-specific information, allowing pre-t...

ID: 2508.18006v1 eess.AS, cs.CL, cs.LG, cs.SD

arXiv PDF

Показано 1 - 10 из 11 записей