📊 Статистика дайджестов
Всего дайджестов: 34022 Добавлено сегодня: 82
Последнее обновление: сегодня
📄 Data-efficient Targeted Token-level Preference Optimization for LLM-based Text-to-Speech
2025-10-09Авторы:
Rikuto Kotoge, Yuichi Sasaki
Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
Aligning text-to-speech (TTS) system outputs with human feedback through
preference optimization has been shown to effectively improve the robustness
and naturalness of language model-based TTS models. Current approaches
primarily require paired desirable and undesirable samples at the utterance
level. However, such pairs are often limited in TTS output data, and
utterance-level formulation prevents fine-grained token-level optimization
needed for accurate pronunciation alignment. In this study,...
Авторы:
Sangmin Lee, Woongjib Choi, Jihyun Kim, Hong-Goo Kang
Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
In this paper, we present a neural spoken language diarization model that
supports an unconstrained span of languages within a single framework. Our
approach integrates a learnable query-based architecture grounded in
multilingual awareness, with large-scale pretraining on simulated
code-switching data. By jointly leveraging these two components, our method
overcomes the limitations of conventional approaches in data scarcity and
architecture optimization, and generalizes effectively to real-wor...
Авторы:
Woongjib Choi, Sangmin Lee, Hyungseob Lim, Hong-Goo Kang
Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
In this paper, we present a vocoder-free framework for audio super-resolution
that employs a flow matching generative model to capture the conditional
distribution of complex-valued spectral coefficients. Unlike conventional
two-stage diffusion-based approaches that predict a mel-spectrogram and then
rely on a pre-trained neural vocoder to synthesize waveforms, our method
directly reconstructs waveforms via the inverse Short-Time Fourier Transform
(iSTFT), thereby eliminating the dependence on a...
Авторы:
Liang-Yuan Wu, Dhruv Jain
Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
Automatic Speech Recognition (ASR) systems often fail to accurately
transcribe speech from Deaf and Hard of Hearing (DHH) individuals, especially
during real-time conversations. Existing personalization approaches typically
require extensive pre-recorded data and place the burden of adaptation on the
DHH speaker. We present EvolveCaptions, a real-time, collaborative ASR
adaptation system that supports in-situ personalization with minimal effort.
Hearing participants correct ASR errors during liv...
📄 Emotion-Aligned Generation in Diffusion Text to Speech Models via Preference-Guided Optimization
2025-10-02Авторы:
Jiacheng Shi, Hongfei Du, Yangfan He, Y. Alicia Hong, Ye Gao
Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
Emotional text-to-speech seeks to convey affect while preserving
intelligibility and prosody, yet existing methods rely on coarse labels or
proxy classifiers and receive only utterance-level feedback. We introduce
Emotion-Aware Stepwise Preference Optimization (EASPO), a post-training
framework that aligns diffusion TTS with fine-grained emotional preferences at
intermediate denoising steps. Central to our approach is EASPM, a
time-conditioned model that scores noisy intermediate speech states a...
Авторы:
Dominik Klement, Matthew Maciejewski, Sanjeev Khudanpur, Jan Černocký, Lukáš Burget
#### Контекст
Улучшение речевых сигналов — ключевая задача в области обработки звука, нацеленная на повышение чёткости и восприятия речи в условиях шума. Одной из существенных проблем этой области является нехватка больших объёмов парных чистых и шумных речевых сигналов, необходимых для традиционных методов обучения на основе парных данных. Для решения этой проблемы используется синтетическое генерирование шумных сигналов, но это приводит к несоответствию между обучающими и тестовыми данными, что снижает качество решений. В данной работе предлагается методика, основанная на непарных данных, для решения проблемы улучшения речи в условиях недоступности парных данных.
#### Метод
Предложена двухветвная архитектура с использованием кодировщика-декодировщика для улучшения речи в условиях недоступности парных данных. Каждая ветвь использует алгоритмы адверсarial training для определения приоритетов по чистой речи и шуму. Одна ветвь определяет приоритеты чистой речи, оперируя с непарным набором данных чистой речи. Другая ветвь определяет приоритеты шума, используя непарный набор данных шума. Эта архитектура позволяет создать два различных представления входных данных, которые, в свою очередь, способствуют эффективному улучшению речи.
#### Результаты
Использовались реальные данные для проверки метода. Наборы данных, включающие чистые и шумные речевые сигналы, были разделены на типы шума и чистоты речи для чёткого определения влияния каждого из них на результат. Эксперименты показали, что предложенный подход даёт результаты, сравнимые с теми, которые достигаются в самых лучших методах непарного улучшения речи. Это подтверждает эффективность адверсарских тренировок в определении приоритетов для чистой речи и шума, даже при отсутствии парных данных.
#### Значимость
Предложенный подход может быть применён в ситуациях, где сбор парных данных для обучения невозможен или нецелесообразен. Он применим в области улучшения речи в реальных условиях, в том числе в системах транскрибирования речи, устройствах повышения четкости речи и в медицинских приложениях. Одним из основных преимуществ этого метода является то, что он устраняет необходимость в парных данных, что упрощает процесс обучения. Будущие исследования будут направлены на улучшение точности улучшения речи и внедрение этого подхода в различные реальные приложения.
#### Выводы
Предложенная работа демонстрирует, что непарные данные могут быть эффективно использованы для решения проблемы улучшения речи. Отдельно отмечено влияние выбора чистых данных на качество результата, что может приводить к смещению в пользу результа
Annotation:
The majority of deep learning-based speech enhancement methods require paired
clean-noisy speech data. Collecting such data at scale in real-world conditions
is infeasible, which has led the community to rely on synthetically generated
noisy speech. However, this introduces a gap between the training and testing
phases. In this work, we propose a novel dual-branch encoder-decoder
architecture for unsupervised speech enhancement that separates the input into
clean speech and residual noise. Adver...
Авторы:
Niclas Pokel, Pehuén Moure, Roman Boehringer, Yingqiang Gao
## Контекст
Основной акцент в данном исследовании размещен на развитии эффективных методов персонализации автоматической распознавательной системы речи (ASR) для нестандартного речи, которая возникает у индивидов с нарушениями, вызванными такими состояниями, как шизофрения или структурные аномалии. Эти нарушения приводят к высокой акустической вариабельности и ограниченному количеству данных для обучения, что существенно снижает качество работы ASR-систем. Недостаточная точность распознавания речи может ограничить возможности коммуникации для пользователей с нестандартной речью, что делает развитие данной области крайне актуальным. Это исследование адресуется вопросу развития методов, которые могут улучшить точность распознавания для нестандартной речи за счет индивидуализированного тестирования.
## Метод
Для достижения поставленных целей, разработчики применяют метод, основанный на моделировании неопределенности, с использованием Monte Carlo Dropout. Это позволяет оценивать уровень неуверенности модели в распознавании отдельных фонем. Эти оценки используются для выделения самых сложных фонем для модели и применения так называемого "отбора на уровне фонемов" (guided sampling). Эта методика позволяет сосредоточиться на сложных для распознавания фонемах, улучшая при этом эффективность обучения. Метод был проверен на двух языках - английском и немецком, что дает возможность проверить его на разных типах нестандартной речи.
## Результаты
Эксперименты проводились на двух языках - английском и немецком, чтобы оценить эффективность метода в разных контекстах. Результаты показали, что модель, использующая уровень неуверенности для проведения отбора фонем, показывает значительный рост точности распознавания речи по сравнению с базовой ASR-системой. В частности, улучшение было замечено в случаях, когда модель выделяла самые сложно распознаваемые фонемы. Это демонстрирует, что модель способна эффективно адаптироваться к индивидуальным особенностям речи, что является ключевым преимуществом.
## Значимость
Разработанный метод имеет потенциал для применения в различных областях, где нестандартная речь является природной, например, в системах оповещения для инвалидов, в системах поддержки для людей с ограниченными возможностями и в медицинской практике. Одним из основных преимуществ является увеличение точности распознавания речи, что делает систему более доступной и полезной для пользователей. Это также открывает новые возможности для персонализации ASR-систем, что может привести к улучшению интеграции таких систем в существующие технологии.
## Выводы
В итоге, разработанный метод является эффек
Annotation:
Automatic speech recognition (ASR) systems struggle with non-normative speech
from individuals with impairments caused by conditions like cerebral palsy or
structural anomalies. The high acoustic variability and scarcity of training
data severely degrade model performance. This work introduces a data-efficient
personalization method that quantifies phoneme-level uncertainty to guide
fine-tuning. We leverage Monte Carlo Dropout to estimate which phonemes a model
finds most difficult and use these...
Авторы:
John Zheng, Farhad Maleki
## Контекст
Задача zero-shot text-to-speech (TTS), которая предполагает генерацию речевого сигнала на основе текстового ввода без предварительного обучения для конкретного голоса, сталкивается с значительными вызовами. Особенностью этой задачи является необходимость достичь баланса между точностью репрезентации голоса (fidelity to the target speaker) и поддержанием логики текста (adherence to text content). Данный вопрос также связан с ограниченностью традиционных моделей TTS в области поддержки новых голосов и текстовых стилей без предварительной дорогостоящей тренировки модели.
В этом контексте появились различные подходы к улучшению речевой модели, в том числе такие, как увеличение динамической области генерации и внедрение новых методов адаптации. Однако существуют проблемы в достижении краткосрочного равновесия между фидбэком текста и аудиогенерацией. Одним из таких подходов является метод classifier-free guidance (CFG), который использовался в области изображения, но до сих пор не широко применялся в TTS.
## Метод
Методология, рассматриваемая в этой работе, основывается на применении CFG в TTS, с фокусом на разделении условий (separated-condition CFG) для получения более тонкой контролируемой генерации. В рамках этого подхода, условия разделяются на две части: одно для спектральной модели, другая - для генерации речевых отсчетов (mel-spectrograms). Это позволяет экспериментировать с различными стратегиями генерации в зависимости от характера текста и особенностей голоса.
Кроме того, в работе используются методы адаптации CFG, которые позволяют менять степень влияния гида в зависимости от стадии генерации: на ранних этапах применяется стандартный CFG, а на поздних - стратегия selective CFG. Такой подход предназначен для достижения оптимального баланса между text adherence и speaker similarity.
## Результаты
В ходе экспериментов было проведено опробование CFG в различных моделях TTS, включая работу с двумя разными языками - английским и китайским (Mandarin). Было выяснено, что применение CFG, как оно применялось в изображении, не приводит к значительным улучшениям в TTS. Однако, применение разделенных условий CFG позволило достичь значительного улучшения speaker similarity без существенного потери text adherence.
Несмотря на это, результаты показали, что эффективность selective CFG значительно зависит от типа текстовой репрезентации. В частности, при использовании двух разных языков (английский и китайский), даже с одинаковой моделью, можно наблюдать различия в выполнении подобного подхода.
## Значимость
Полученные результаты могут иметь большое значение в области TTS, особенно для технологий, требующих краткосрочного баланса между текстовой и речевой ин
Annotation:
In zero-shot text-to-speech, achieving a balance between fidelity to the
target speaker and adherence to text content remains a challenge. While
classifier-free guidance (CFG) strategies have shown promising results in image
generation, their application to speech synthesis are underexplored. Separating
the conditions used for CFG enables trade-offs between different desired
characteristics in speech synthesis. In this paper, we evaluate the
adaptability of CFG strategies originally developed fo...
Авторы:
Dayun Choi, Jung-Woo Choi
## Контекст
Значительные усилия в области звуковой обработки направлены на решение проблемы выделения целевого звука (Target Sound Extraction, TSE) в сложной акустической среде. Целевой звук часто загрязняется другими акустическими сигналами, что снижает качество звука и затрудняет его анализ. Достижения в этой области могут применяться в сферах, таких как контроль звука, реалистичная имитация звуков, звуковые интерфейсы для виртуальных и аugmented реальностей, а также в медицинской диагностике. Однако существующие методы сталкиваются с ограничениями в том, что они неэффективно используют данные о направлении звука (DoA, Direction of Arrival) или недостаточно эффективно интегрируют эти данные, что приводит к потере тонкой спектральной информации. Это призвана решить SoundCompass, новая модель, которая предлагает инновационный подход к интеграции направленных спектральных классов.
## Метод
SoundCompass основывается на Spectral Pairwise INteraction (SPIN) module, который анализирует взаимосвязи между каналами в сложных спектрограммах. Благодаря этому модулю, модель может полностью сохранить геометрическую информацию в многоканальных сигналах. Данные о направлении звука (DoA) представлены в форме сферических гармоник (SH). Для интеграции этих данных спектральные классы и DoA объединяются в одном фреймворке, который использует ядро свертки для перекрывающихся поддиапазонов частот. Таким образом, модель удается сохранить тонкую спектральную информацию и эффективно использовать направленные сигналы. Эти данные же повторно используются в iterative refinement strategy, или Chain-of-Inference (CoI), которая повторяет процесс выделения звука, учитывая предыдущие результаты, улучшая точность и результаты.
## Результаты
Набор экспериментов проводился на соревновательной базе данных, включающей различные звуковые сигналы и сложные акустические сцены. Результаты показали, что SoundCompass превосходит существующие методы в целевом выделении звука. Это продемонстрировано с помощью метрик, таких как Signal-to-Distortion Ratio (SDR) и Source-to-Interference Ratio (SIR). Метод особенно эффективен в сценах с многоканальными сигналами и сложными интерфейсами, где предыдущие методы оказывались неэффективны. Это позволяет SoundCompass применяться в области аудио-визуальных систем, виртуальной и аugmented реальности, а также в звуковой диагностике.
## Значимость
SoundCompass предлагает новый подход к решению проблемы выделения целевого звука, сохраняя полную спектральную и направленную информацию. Его можно применять в сферах, где важно выделить звуковые сигналы в условиях шума и
Annotation:
Recent advances in target sound extraction (TSE) utilize directional clues
derived from direction of arrival (DoA), which represent an inherent spatial
property of sound available in any acoustic scene. However, previous DoA-based
methods rely on hand-crafted features or discrete encodings, which lose
fine-grained spatial information and limit adaptability. We propose
SoundCompass, an effective directional clue integration framework centered on a
Spectral Pairwise INteraction (SPIN) module that ...
Авторы:
Jiarui Hai, Mounya Elhilali
#### Контекст
Область Sound Event Detection (SED), основная задача которой — определение и разметка звуковых событий в аудио, сталкивается с ограничениями, связанными с недостатком масштабных, таймингово помеченных данных. Этот недостаток затрудняет обучение моделей, которые должны точно распознавать и классифицировать сложные сцены с несколькими событиями. Несмотря на существующие методы аугментации, такие как SpecAugment и Mix-up, они ограничены в разнообразии генерируемых сэмплов и не всегда достаточно эффективны. Текущая мотивация заключается в разработке новых подходов, основанных на генерируемых моделях, которые могут сгенерировать более разнообразные и корректно помеченные данные для SED.
#### Метод
Метод SynSonic основан на применении текст-к-звуковой диффузионной модели, обученной на низкоуровневых признаках звука, таких как энергия и форма волны. Для обеспечения корректности и подробности генерируемых звуковых событий используется ControlNet, который управляет моделью через энергийную октановку. Для фильтрации генерируемых сэмплов предлагается стратегия joint score filtering, включающую два классификатора: один для глобальной оценки качества, другой — для локального анализа звука. Эти компоненты объединены в архитектуру, которая допускает синтез разнообразных и точно помеченных звуковых событий.
#### Результаты
Используя данные из тестовых наборов, разработчики проверили SynSonic на задаче SED, используя метрики Polyphonic Sound Detection Scores (PSDS1 и PSDS2). Наблюдается улучшение этих метрик в сравнении со стандартными методами аугментации, что указывает на эффективность SynSonic в повышении точности локализации времени и различения классов. Эксперименты также показывают, что фильтрация сэмплов с помощью joint score filtering стабилизирует результаты и повышает качество генерируемых звуков.
#### Значимость
SynSonic может быть применен в различных областях, где требуется точное распознавание звуковых событий, таких как обнаружение природы, здравоохранение и безопасность. Одним из основных преимуществ является увеличение разнообразия данных, что позволяет моделям SED лучше адаптироваться к различным сценариям. Будущие работы будут сконцентрированы на улучшении фильтрации сэмплов, интеграции с новыми моделями генеративного моделирования и расширении приложений.
#### Выводы
SynSonic представляет собой прорыв в генерируемом аугментировании для SED, обеспечивая точные и разнообразные звуковые события. Этот подход показывает потенциал для решения проблемы нехватки данных и может стать важной компонентой в будущих исследованиях в области SED.
Annotation:
Data synthesis and augmentation are essential for Sound Event Detection (SED)
due to the scarcity of temporally labeled data. While augmentation methods like
SpecAugment and Mix-up can enhance model performance, they remain constrained
by the diversity of existing samples. Recent generative models offer new
opportunities, yet their direct application to SED is challenging due to the
lack of precise temporal annotations and the risk of introducing noise through
unreliable filtering. To address th...
Показано 21 -
30
из 65 записей