📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 ProMode: A Speech Prosody Model Conditioned on Acoustic and Textual Inputs

2025-08-15

Авторы:

Eray Eren, Qingju Liu, Hyeongwoo Kim, Pablo Garrido, Abeer Alwan

## Контекст Просодия (speech prosody) — это важный аспект речи, который необходим для передачи эмоций, интонаций, информационных приоритетов и индивидуальных особенностей речи. Однако создание моделей просодии, которые эффективно могут принимать текстовые и акустические входы, остается сложной задачей. Недостаток мощных моделей просодии приводит к недостатку точности в таких задачах, как text-to-speech (TTS) и других, где просодия играет ключевую роль. Существующие модели часто страдают от ограниченности в обработке текста и акустических признаков вместе, что приводит к предсказаниям, которые могут быть точными лишь в части. Мотивируя нашу работу является необходимость разработки модели, которая бы способствовала повышению эффективности моделей просодии и предоставляла новые возможности в задачах, где просодия играет важную роль. ## Метод Предлагаемая модель, **ProMode**, является stand-alone моделью, которая предназначена для преобразования текстовых сигналов в просодические признаки, такие как F0 (частота ф F0) и энергия. Она использует как входные данные звуковые признаки, так и текстовые данные, которые частично замаскированы, и производит унифицированный фиксированного размера просодический вектор. Этот вектор, в свою очередь, используется декодером для предсказания отсутствующих частей акустического сигнала. Модель обучается на данных GigaSpeech dataset и включает в себя архитектуру, состоящую из энкодера (который обрабатывает текст и акустику) и декодера (который предсказывает акустические признаки). Модель обучается так, чтобы учитывать обе части входных данных, что позволяет повысить точность предсказаний просодии. ## Результаты Мы проводили эксперименты для оценки точности предсказания F0 и энергии в предложениях. Наши результаты показали, что ProMode превосходит текущие стандартные модели просодии на разных уровнях гранулярности. Мы также интегрировали наши предсказанные просодические признаки в TTS-систему и провели перцептивные тесты, которые показали, что наши результаты превосходят базовые модели по предпочтениям пользователей в пределах просодических признаков. Эти результаты демонстрируют, что ProMode может быть эффективно использована в текстово-слойных моделях речи для повышения качества моделей просодии. ## Значимость Модель ProMode может быть применена в различных областях, включая текстовые-слойные модели речи, синтез речи, генерацию речи и другие задачи, где просодия играет важную роль. Одной из основных преимуществ этой модели является ее способность обрабатывать тексты и акустические признаки вместе, что дает более качественные предсказания просодии. Это может привести к повышению точности в задача

Annotation:

Prosody conveys rich emotional and semantic information of the speech signal as well as individual idiosyncrasies. We propose a stand-alone model that maps text-to-prosodic features such as F0 and energy and can be used in downstream tasks such as TTS. The ProMode encoder takes as input acoustic features and time-aligned textual content, both are partially masked, and obtains a fixed-length latent prosodic embedding. The decoder predicts acoustics in the masked region using both the encoded pros...

ID: 2508.09389v1 eess.AS, cs.CL, cs.LG, cs.SD

arXiv PDF

Показано 11 - 11 из 11 записей