📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Data-efficient Targeted Token-level Preference Optimization for LLM-based Text-to-Speech

2025-10-09

Авторы:

Rikuto Kotoge, Yuichi Sasaki

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Aligning text-to-speech (TTS) system outputs with human feedback through preference optimization has been shown to effectively improve the robustness and naturalness of language model-based TTS models. Current approaches primarily require paired desirable and undesirable samples at the utterance level. However, such pairs are often limited in TTS output data, and utterance-level formulation prevents fine-grained token-level optimization needed for accurate pronunciation alignment. In this study,...

ID: 2510.05799v1 cs.CL, cs.AI, cs.SD

arXiv PDF

📄 SAGE-LD: Towards Scalable and Generalizable End-to-End Language Diarization via Simulated Data Augmentation

2025-10-04

Авторы:

Sangmin Lee, Woongjib Choi, Jihyun Kim, Hong-Goo Kang

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

In this paper, we present a neural spoken language diarization model that supports an unconstrained span of languages within a single framework. Our approach integrates a learnable query-based architecture grounded in multilingual awareness, with large-scale pretraining on simulated code-switching data. By jointly leveraging these two components, our method overcomes the limitations of conventional approaches in data scarcity and architecture optimization, and generalizes effectively to real-wor...

ID: 2510.00582v1 cs.CL, cs.AI, cs.SD

arXiv PDF

📄 UniverSR: Unified and Versatile Audio Super-Resolution via Vocoder-Free Flow Matching

2025-10-04

Авторы:

Woongjib Choi, Sangmin Lee, Hyungseob Lim, Hong-Goo Kang

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

In this paper, we present a vocoder-free framework for audio super-resolution that employs a flow matching generative model to capture the conditional distribution of complex-valued spectral coefficients. Unlike conventional two-stage diffusion-based approaches that predict a mel-spectrogram and then rely on a pre-trained neural vocoder to synthesize waveforms, our method directly reconstructs waveforms via the inverse Short-Time Fourier Transform (iSTFT), thereby eliminating the dependence on a...

ID: 2510.00771v1 eess.AS, cs.AI, cs.SD, eess.SP

arXiv PDF

📄 EvolveCaptions: Empowering DHH Users Through Real-Time Collaborative Captioning

2025-10-04

Авторы:

Liang-Yuan Wu, Dhruv Jain

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Automatic Speech Recognition (ASR) systems often fail to accurately transcribe speech from Deaf and Hard of Hearing (DHH) individuals, especially during real-time conversations. Existing personalization approaches typically require extensive pre-recorded data and place the burden of adaptation on the DHH speaker. We present EvolveCaptions, a real-time, collaborative ASR adaptation system that supports in-situ personalization with minimal effort. Hearing participants correct ASR errors during liv...

ID: 2510.02181v1 cs.HC, cs.AI, cs.SD, eess.AS

arXiv PDF

📄 Emotion-Aligned Generation in Diffusion Text to Speech Models via Preference-Guided Optimization

2025-10-02

Авторы:

Jiacheng Shi, Hongfei Du, Yangfan He, Y. Alicia Hong, Ye Gao

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Emotional text-to-speech seeks to convey affect while preserving intelligibility and prosody, yet existing methods rely on coarse labels or proxy classifiers and receive only utterance-level feedback. We introduce Emotion-Aware Stepwise Preference Optimization (EASPO), a post-training framework that aligns diffusion TTS with fine-grained emotional preferences at intermediate denoising steps. Central to our approach is EASPM, a time-conditioned model that scores noisy intermediate speech states a...

ID: 2509.25416v1 cs.CL, cs.AI, cs.SD

arXiv PDF

📄 Unsupervised Speech Enhancement using Data-defined Priors

2025-10-01

Авторы:

Dominik Klement, Matthew Maciejewski, Sanjeev Khudanpur, Jan Černocký, Lukáš Burget

#### Контекст Улучшение речевых сигналов — ключевая задача в области обработки звука, нацеленная на повышение чёткости и восприятия речи в условиях шума. Одной из существенных проблем этой области является нехватка больших объёмов парных чистых и шумных речевых сигналов, необходимых для традиционных методов обучения на основе парных данных. Для решения этой проблемы используется синтетическое генерирование шумных сигналов, но это приводит к несоответствию между обучающими и тестовыми данными, что снижает качество решений. В данной работе предлагается методика, основанная на непарных данных, для решения проблемы улучшения речи в условиях недоступности парных данных. #### Метод Предложена двухветвная архитектура с использованием кодировщика-декодировщика для улучшения речи в условиях недоступности парных данных. Каждая ветвь использует алгоритмы адверсarial training для определения приоритетов по чистой речи и шуму. Одна ветвь определяет приоритеты чистой речи, оперируя с непарным набором данных чистой речи. Другая ветвь определяет приоритеты шума, используя непарный набор данных шума. Эта архитектура позволяет создать два различных представления входных данных, которые, в свою очередь, способствуют эффективному улучшению речи. #### Результаты Использовались реальные данные для проверки метода. Наборы данных, включающие чистые и шумные речевые сигналы, были разделены на типы шума и чистоты речи для чёткого определения влияния каждого из них на результат. Эксперименты показали, что предложенный подход даёт результаты, сравнимые с теми, которые достигаются в самых лучших методах непарного улучшения речи. Это подтверждает эффективность адверсарских тренировок в определении приоритетов для чистой речи и шума, даже при отсутствии парных данных. #### Значимость Предложенный подход может быть применён в ситуациях, где сбор парных данных для обучения невозможен или нецелесообразен. Он применим в области улучшения речи в реальных условиях, в том числе в системах транскрибирования речи, устройствах повышения четкости речи и в медицинских приложениях. Одним из основных преимуществ этого метода является то, что он устраняет необходимость в парных данных, что упрощает процесс обучения. Будущие исследования будут направлены на улучшение точности улучшения речи и внедрение этого подхода в различные реальные приложения. #### Выводы Предложенная работа демонстрирует, что непарные данные могут быть эффективно использованы для решения проблемы улучшения речи. Отдельно отмечено влияние выбора чистых данных на качество результата, что может приводить к смещению в пользу результа

Annotation:

The majority of deep learning-based speech enhancement methods require paired clean-noisy speech data. Collecting such data at scale in real-world conditions is infeasible, which has led the community to rely on synthetically generated noisy speech. However, this introduces a gap between the training and testing phases. In this work, we propose a novel dual-branch encoder-decoder architecture for unsupervised speech enhancement that separates the input into clean speech and residual noise. Adver...

ID: 2509.22942v1 eess.AS, cs.AI, cs.SD

arXiv PDF

📄 Data-Efficient ASR Personalization for Non-Normative Speech Using an Uncertainty-Based Phoneme Difficulty Score for Guided Sampling

2025-09-26

Авторы:

Niclas Pokel, Pehuén Moure, Roman Boehringer, Yingqiang Gao

## Контекст Основной акцент в данном исследовании размещен на развитии эффективных методов персонализации автоматической распознавательной системы речи (ASR) для нестандартного речи, которая возникает у индивидов с нарушениями, вызванными такими состояниями, как шизофрения или структурные аномалии. Эти нарушения приводят к высокой акустической вариабельности и ограниченному количеству данных для обучения, что существенно снижает качество работы ASR-систем. Недостаточная точность распознавания речи может ограничить возможности коммуникации для пользователей с нестандартной речью, что делает развитие данной области крайне актуальным. Это исследование адресуется вопросу развития методов, которые могут улучшить точность распознавания для нестандартной речи за счет индивидуализированного тестирования. ## Метод Для достижения поставленных целей, разработчики применяют метод, основанный на моделировании неопределенности, с использованием Monte Carlo Dropout. Это позволяет оценивать уровень неуверенности модели в распознавании отдельных фонем. Эти оценки используются для выделения самых сложных фонем для модели и применения так называемого "отбора на уровне фонемов" (guided sampling). Эта методика позволяет сосредоточиться на сложных для распознавания фонемах, улучшая при этом эффективность обучения. Метод был проверен на двух языках - английском и немецком, что дает возможность проверить его на разных типах нестандартной речи. ## Результаты Эксперименты проводились на двух языках - английском и немецком, чтобы оценить эффективность метода в разных контекстах. Результаты показали, что модель, использующая уровень неуверенности для проведения отбора фонем, показывает значительный рост точности распознавания речи по сравнению с базовой ASR-системой. В частности, улучшение было замечено в случаях, когда модель выделяла самые сложно распознаваемые фонемы. Это демонстрирует, что модель способна эффективно адаптироваться к индивидуальным особенностям речи, что является ключевым преимуществом. ## Значимость Разработанный метод имеет потенциал для применения в различных областях, где нестандартная речь является природной, например, в системах оповещения для инвалидов, в системах поддержки для людей с ограниченными возможностями и в медицинской практике. Одним из основных преимуществ является увеличение точности распознавания речи, что делает систему более доступной и полезной для пользователей. Это также открывает новые возможности для персонализации ASR-систем, что может привести к улучшению интеграции таких систем в существующие технологии. ## Выводы В итоге, разработанный метод является эффек

Annotation:

Automatic speech recognition (ASR) systems struggle with non-normative speech from individuals with impairments caused by conditions like cerebral palsy or structural anomalies. The high acoustic variability and scarcity of training data severely degrade model performance. This work introduces a data-efficient personalization method that quantifies phoneme-level uncertainty to guide fine-tuning. We leverage Monte Carlo Dropout to estimate which phonemes a model finds most difficult and use these...

ID: 2509.20396v1 eess.AS, cs.AI, cs.SD

arXiv PDF

📄 Selective Classifier-free Guidance for Zero-shot Text-to-speech

2025-09-26

Авторы:

John Zheng, Farhad Maleki

## Контекст Задача zero-shot text-to-speech (TTS), которая предполагает генерацию речевого сигнала на основе текстового ввода без предварительного обучения для конкретного голоса, сталкивается с значительными вызовами. Особенностью этой задачи является необходимость достичь баланса между точностью репрезентации голоса (fidelity to the target speaker) и поддержанием логики текста (adherence to text content). Данный вопрос также связан с ограниченностью традиционных моделей TTS в области поддержки новых голосов и текстовых стилей без предварительной дорогостоящей тренировки модели. В этом контексте появились различные подходы к улучшению речевой модели, в том числе такие, как увеличение динамической области генерации и внедрение новых методов адаптации. Однако существуют проблемы в достижении краткосрочного равновесия между фидбэком текста и аудиогенерацией. Одним из таких подходов является метод classifier-free guidance (CFG), который использовался в области изображения, но до сих пор не широко применялся в TTS. ## Метод Методология, рассматриваемая в этой работе, основывается на применении CFG в TTS, с фокусом на разделении условий (separated-condition CFG) для получения более тонкой контролируемой генерации. В рамках этого подхода, условия разделяются на две части: одно для спектральной модели, другая - для генерации речевых отсчетов (mel-spectrograms). Это позволяет экспериментировать с различными стратегиями генерации в зависимости от характера текста и особенностей голоса. Кроме того, в работе используются методы адаптации CFG, которые позволяют менять степень влияния гида в зависимости от стадии генерации: на ранних этапах применяется стандартный CFG, а на поздних - стратегия selective CFG. Такой подход предназначен для достижения оптимального баланса между text adherence и speaker similarity. ## Результаты В ходе экспериментов было проведено опробование CFG в различных моделях TTS, включая работу с двумя разными языками - английским и китайским (Mandarin). Было выяснено, что применение CFG, как оно применялось в изображении, не приводит к значительным улучшениям в TTS. Однако, применение разделенных условий CFG позволило достичь значительного улучшения speaker similarity без существенного потери text adherence. Несмотря на это, результаты показали, что эффективность selective CFG значительно зависит от типа текстовой репрезентации. В частности, при использовании двух разных языков (английский и китайский), даже с одинаковой моделью, можно наблюдать различия в выполнении подобного подхода. ## Значимость Полученные результаты могут иметь большое значение в области TTS, особенно для технологий, требующих краткосрочного баланса между текстовой и речевой ин

Annotation:

In zero-shot text-to-speech, achieving a balance between fidelity to the target speaker and adherence to text content remains a challenge. While classifier-free guidance (CFG) strategies have shown promising results in image generation, their application to speech synthesis are underexplored. Separating the conditions used for CFG enables trade-offs between different desired characteristics in speech synthesis. In this paper, we evaluate the adaptability of CFG strategies originally developed fo...

ID: 2509.19668v1 eess.AS, cs.AI, cs.SD

arXiv PDF

📄 SoundCompass: Navigating Target Sound Extraction With Effective Directional Clue Integration In Complex Acoustic Scenes

2025-09-25

Авторы:

Dayun Choi, Jung-Woo Choi

## Контекст Значительные усилия в области звуковой обработки направлены на решение проблемы выделения целевого звука (Target Sound Extraction, TSE) в сложной акустической среде. Целевой звук часто загрязняется другими акустическими сигналами, что снижает качество звука и затрудняет его анализ. Достижения в этой области могут применяться в сферах, таких как контроль звука, реалистичная имитация звуков, звуковые интерфейсы для виртуальных и аugmented реальностей, а также в медицинской диагностике. Однако существующие методы сталкиваются с ограничениями в том, что они неэффективно используют данные о направлении звука (DoA, Direction of Arrival) или недостаточно эффективно интегрируют эти данные, что приводит к потере тонкой спектральной информации. Это призвана решить SoundCompass, новая модель, которая предлагает инновационный подход к интеграции направленных спектральных классов. ## Метод SoundCompass основывается на Spectral Pairwise INteraction (SPIN) module, который анализирует взаимосвязи между каналами в сложных спектрограммах. Благодаря этому модулю, модель может полностью сохранить геометрическую информацию в многоканальных сигналах. Данные о направлении звука (DoA) представлены в форме сферических гармоник (SH). Для интеграции этих данных спектральные классы и DoA объединяются в одном фреймворке, который использует ядро свертки для перекрывающихся поддиапазонов частот. Таким образом, модель удается сохранить тонкую спектральную информацию и эффективно использовать направленные сигналы. Эти данные же повторно используются в iterative refinement strategy, или Chain-of-Inference (CoI), которая повторяет процесс выделения звука, учитывая предыдущие результаты, улучшая точность и результаты. ## Результаты Набор экспериментов проводился на соревновательной базе данных, включающей различные звуковые сигналы и сложные акустические сцены. Результаты показали, что SoundCompass превосходит существующие методы в целевом выделении звука. Это продемонстрировано с помощью метрик, таких как Signal-to-Distortion Ratio (SDR) и Source-to-Interference Ratio (SIR). Метод особенно эффективен в сценах с многоканальными сигналами и сложными интерфейсами, где предыдущие методы оказывались неэффективны. Это позволяет SoundCompass применяться в области аудио-визуальных систем, виртуальной и аugmented реальности, а также в звуковой диагностике. ## Значимость SoundCompass предлагает новый подход к решению проблемы выделения целевого звука, сохраняя полную спектральную и направленную информацию. Его можно применять в сферах, где важно выделить звуковые сигналы в условиях шума и

Annotation:

Recent advances in target sound extraction (TSE) utilize directional clues derived from direction of arrival (DoA), which represent an inherent spatial property of sound available in any acoustic scene. However, previous DoA-based methods rely on hand-crafted features or discrete encodings, which lose fine-grained spatial information and limit adaptability. We propose SoundCompass, an effective directional clue integration framework centered on a Spectral Pairwise INteraction (SPIN) module that ...

ID: 2509.18561v1 eess.AS, cs.AI, cs.SD

arXiv PDF

📄 SynSonic: Augmenting Sound Event Detection through Text-to-Audio Diffusion ControlNet and Effective Sample Filtering

2025-09-25

Авторы:

Jiarui Hai, Mounya Elhilali

#### Контекст Область Sound Event Detection (SED), основная задача которой — определение и разметка звуковых событий в аудио, сталкивается с ограничениями, связанными с недостатком масштабных, таймингово помеченных данных. Этот недостаток затрудняет обучение моделей, которые должны точно распознавать и классифицировать сложные сцены с несколькими событиями. Несмотря на существующие методы аугментации, такие как SpecAugment и Mix-up, они ограничены в разнообразии генерируемых сэмплов и не всегда достаточно эффективны. Текущая мотивация заключается в разработке новых подходов, основанных на генерируемых моделях, которые могут сгенерировать более разнообразные и корректно помеченные данные для SED. #### Метод Метод SynSonic основан на применении текст-к-звуковой диффузионной модели, обученной на низкоуровневых признаках звука, таких как энергия и форма волны. Для обеспечения корректности и подробности генерируемых звуковых событий используется ControlNet, который управляет моделью через энергийную октановку. Для фильтрации генерируемых сэмплов предлагается стратегия joint score filtering, включающую два классификатора: один для глобальной оценки качества, другой — для локального анализа звука. Эти компоненты объединены в архитектуру, которая допускает синтез разнообразных и точно помеченных звуковых событий. #### Результаты Используя данные из тестовых наборов, разработчики проверили SynSonic на задаче SED, используя метрики Polyphonic Sound Detection Scores (PSDS1 и PSDS2). Наблюдается улучшение этих метрик в сравнении со стандартными методами аугментации, что указывает на эффективность SynSonic в повышении точности локализации времени и различения классов. Эксперименты также показывают, что фильтрация сэмплов с помощью joint score filtering стабилизирует результаты и повышает качество генерируемых звуков. #### Значимость SynSonic может быть применен в различных областях, где требуется точное распознавание звуковых событий, таких как обнаружение природы, здравоохранение и безопасность. Одним из основных преимуществ является увеличение разнообразия данных, что позволяет моделям SED лучше адаптироваться к различным сценариям. Будущие работы будут сконцентрированы на улучшении фильтрации сэмплов, интеграции с новыми моделями генеративного моделирования и расширении приложений. #### Выводы SynSonic представляет собой прорыв в генерируемом аугментировании для SED, обеспечивая точные и разнообразные звуковые события. Этот подход показывает потенциал для решения проблемы нехватки данных и может стать важной компонентой в будущих исследованиях в области SED.

Annotation:

Data synthesis and augmentation are essential for Sound Event Detection (SED) due to the scarcity of temporally labeled data. While augmentation methods like SpecAugment and Mix-up can enhance model performance, they remain constrained by the diversity of existing samples. Recent generative models offer new opportunities, yet their direct application to SED is challenging due to the lack of precise temporal annotations and the risk of introducing noise through unreliable filtering. To address th...

ID: 2509.18603v1 eess.AS, cs.AI, cs.SD

arXiv PDF

Показано 21 - 30 из 65 записей