Benchmarking Prosody Encoding in Discrete Speech Tokens

2508.11224v1 cs.SD, cs.CL, eess.AS 2025-08-19
Авторы:

Kentaro Onda, Satoru Fukayama, Daisuke Saito, Nobuaki Minematsu

Резюме на русском

#### Контекст Существует значительный интерес к использованию discrete tokens (дискретных токенов), получаемых с помощью self-supervised learning (SSL), в области speech language models. Эти токены становятся важной частью моделей, которые должны понимать и генерировать не только семантический контент, но и просодические особенности речи. Однако, существуют ограничения в понимании того, насколько эффективны дискретные токены в понимании и генерировании просодической информации. Это вопрос, который вносит значительные трудности в проектирование эффективных моделей speech language. Мотивация для данного исследования заключается в том, чтобы проанализировать эффективность дискретных токенов в задаче prosody encoding, обеспечить понимание их способности охватить просодические фичи и предоставить рекомендации для дальнейшего развития дискретных токенов. #### Метод Для изучения просодического кодирования выбраны два дискретных токена, полученные с помощью k-means clustering из SSL-моделей: FastSpeech 2 и HuBERT. Использование этих двух моделей позволяет изучить различные аспекты просодического кодирования. Для оценки способности токенов понимать просодические особенности проводится ряд экспериментов, включающих модификацию просодии (например, изменение интонации, произношения и ритма) и изучение отклика дискретных токенов на эти изменения. Это позволяет оценить, насколько токены воспринимают изменения в просодии и могут эффективно кодировать эти изменения в своих представлениях. Архитектура использования данных и методов оценки включает в себя обученные модели, которые оценивают просодические фичи в дискретных токенах. #### Результаты В ходе исследования проводился ряд экспериментов, включающих изменение просодии в голосовых данных и изучение отклика дискретных токенов. Для этого применялись различные методы модификации просодии, такие как изменение тональности, скорости речи и интонации. Эксперименты показали, что дискретные токены имеют различную чувствительность к просодическим изменениям, и их восприятие этих изменений зависит от конкретного SSL-модели и количества кластеров. Это позволяет сделать вывод, что некоторые SSL-модели предоставляют более эффективные представления для понимания просодии, чем другие. Эти результаты дают практические рекомендации для выбора SSL-моделей и количества кластеров при проектировании дискретных токенов. #### Значимость Результаты этого исследования имеют значительное значение для области speech language models, где необходимо также учитывать просодические фичи. На основе полученных результатов могут быть разработаны более точные и эффективные дискретные токены, которые будут устойчивы к просодическим изменениям и могут быть использованы в различных задачах, таких как speech recognition, text-to-speech и другие. Э

Abstract

Recently, discrete tokens derived from self-supervised learning (SSL) models via k-means clustering have been actively studied as pseudo-text in speech language models and as efficient intermediate representations for various tasks. However, these discrete tokens are typically learned in advance, separately from the training of language models or downstream tasks. As a result, choices related to discretization, such as the SSL model used or the number of clusters, must be made heuristically. In particular, speech language models are expected to understand and generate responses that reflect not only the semantic content but also prosodic features. Yet, there has been limited research on the ability of discrete tokens to capture prosodic information. To address this gap, this study conducts a comprehensive analysis focusing on prosodic encoding based on their sensitivity to the artificially modified prosody, aiming to provide practical guidelines for designing discrete tokens.

Ссылки и действия