## Контекст
Просодия (speech prosody) — это важный аспект речи, который необходим для передачи эмоций, интонаций, информационных приоритетов и индивидуальных особенностей речи. Однако создание моделей просодии, которые эффективно могут принимать текстовые и акустические входы, остается сложной задачей. Недостаток мощных моделей просодии приводит к недостатку точности в таких задачах, как text-to-speech (TTS) и других, где просодия играет ключевую роль. Существующие модели часто страдают от ограниченности в обработке текста и акустических признаков вместе, что приводит к предсказаниям, которые могут быть точными лишь в части. Мотивируя нашу работу является необходимость разработки модели, которая бы способствовала повышению эффективности моделей просодии и предоставляла новые возможности в задачах, где просодия играет важную роль.
## Метод
Предлагаемая модель, **ProMode**, является stand-alone моделью, которая предназначена для преобразования текстовых сигналов в просодические признаки, такие как F0 (частота ф F0) и энергия. Она использует как входные данные звуковые признаки, так и текстовые данные, которые частично замаскированы, и производит унифицированный фиксированного размера просодический вектор. Этот вектор, в свою очередь, используется декодером для предсказания отсутствующих частей акустического сигнала. Модель обучается на данных GigaSpeech dataset и включает в себя архитектуру, состоящую из энкодера (который обрабатывает текст и акустику) и декодера (который предсказывает акустические признаки). Модель обучается так, чтобы учитывать обе части входных данных, что позволяет повысить точность предсказаний просодии.
## Результаты
Мы проводили эксперименты для оценки точности предсказания F0 и энергии в предложениях. Наши результаты показали, что ProMode превосходит текущие стандартные модели просодии на разных уровнях гранулярности. Мы также интегрировали наши предсказанные просодические признаки в TTS-систему и провели перцептивные тесты, которые показали, что наши результаты превосходят базовые модели по предпочтениям пользователей в пределах просодических признаков. Эти результаты демонстрируют, что ProMode может быть эффективно использована в текстово-слойных моделях речи для повышения качества моделей просодии.
## Значимость
Модель ProMode может быть применена в различных областях, включая текстовые-слойные модели речи, синтез речи, генерацию речи и другие задачи, где просодия играет важную роль. Одной из основных преимуществ этой модели является ее способность обрабатывать тексты и акустические признаки вместе, что дает более качественные предсказания просодии. Это может привести к повышению точности в задача