ProMode: A Speech Prosody Model Conditioned on Acoustic and Textual Inputs

2508.09389v1 eess.AS, cs.CL, cs.LG, cs.SD 2025-08-15

Авторы:

Eray Eren, Qingju Liu, Hyeongwoo Kim, Pablo Garrido, Abeer Alwan

Резюме на русском

## Контекст Просодия (speech prosody) — это важный аспект речи, который необходим для передачи эмоций, интонаций, информационных приоритетов и индивидуальных особенностей речи. Однако создание моделей просодии, которые эффективно могут принимать текстовые и акустические входы, остается сложной задачей. Недостаток мощных моделей просодии приводит к недостатку точности в таких задачах, как text-to-speech (TTS) и других, где просодия играет ключевую роль. Существующие модели часто страдают от ограниченности в обработке текста и акустических признаков вместе, что приводит к предсказаниям, которые могут быть точными лишь в части. Мотивируя нашу работу является необходимость разработки модели, которая бы способствовала повышению эффективности моделей просодии и предоставляла новые возможности в задачах, где просодия играет важную роль. ## Метод Предлагаемая модель, **ProMode**, является stand-alone моделью, которая предназначена для преобразования текстовых сигналов в просодические признаки, такие как F0 (частота ф F0) и энергия. Она использует как входные данные звуковые признаки, так и текстовые данные, которые частично замаскированы, и производит унифицированный фиксированного размера просодический вектор. Этот вектор, в свою очередь, используется декодером для предсказания отсутствующих частей акустического сигнала. Модель обучается на данных GigaSpeech dataset и включает в себя архитектуру, состоящую из энкодера (который обрабатывает текст и акустику) и декодера (который предсказывает акустические признаки). Модель обучается так, чтобы учитывать обе части входных данных, что позволяет повысить точность предсказаний просодии. ## Результаты Мы проводили эксперименты для оценки точности предсказания F0 и энергии в предложениях. Наши результаты показали, что ProMode превосходит текущие стандартные модели просодии на разных уровнях гранулярности. Мы также интегрировали наши предсказанные просодические признаки в TTS-систему и провели перцептивные тесты, которые показали, что наши результаты превосходят базовые модели по предпочтениям пользователей в пределах просодических признаков. Эти результаты демонстрируют, что ProMode может быть эффективно использована в текстово-слойных моделях речи для повышения качества моделей просодии. ## Значимость Модель ProMode может быть применена в различных областях, включая текстовые-слойные модели речи, синтез речи, генерацию речи и другие задачи, где просодия играет важную роль. Одной из основных преимуществ этой модели является ее способность обрабатывать тексты и акустические признаки вместе, что дает более качественные предсказания просодии. Это может привести к повышению точности в задача

Abstract

Prosody conveys rich emotional and semantic information of the speech signal as well as individual idiosyncrasies. We propose a stand-alone model that maps text-to-prosodic features such as F0 and energy and can be used in downstream tasks such as TTS. The ProMode encoder takes as input acoustic features and time-aligned textual content, both are partially masked, and obtains a fixed-length latent prosodic embedding. The decoder predicts acoustics in the masked region using both the encoded prosody input and unmasked textual content. Trained on the GigaSpeech dataset, we compare our method with state-of-the-art style encoders. For F0 and energy predictions, we show consistent improvements for our model at different levels of granularity. We also integrate these predicted prosodic features into a TTS system and conduct perceptual tests, which show higher prosody preference compared to the baselines, demonstrating the model's potential in tasks where prosody modeling is important.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

ProMode: A Speech Prosody Model Conditioned on Acoustic and Textual Inputs

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

TAU: A Benchmark for Cultural Sound Understanding Beyond Semantics

Breathing and Semantic Pause Detection and Exertion-Level Classification in Post...

Unified Learnable 2D Convolutional Feature Extraction for ASR

Error Analysis in a Modular Meeting Transcription System

Unseen Speaker and Language Adaptation for Lightweight Text-To-Speech with Adapt...

Навигация