Length-Aware Rotary Position Embedding for Text-Speech Alignment
2509.11084v1
eess.AS, cs.AI, cs.CL, cs.SD
2025-09-17
Авторы:
Hyeongju Kim, Juheon Lee, Jinhyeok Yang, Jacob Morton
Резюме на русском
## Контекст
Текстово-речевые системы (TTS) широко используются для генерации речи на основе текста в различных приложениях, таких как видеоконференции, автоматизированные системы обслуживания, интерактивные ассистенты и доступность звукового контента. Одной из ключевых задач в этих системах является текстово-речевая алигнмент (TRА), которая включает в себя корректное установление соответствия между текстом и его речевой интерпретацией. Одним из известных подходов к решению этой задачи является использование трансформеров с кросс-аттенцией. Однако, текущие модели TTS имеют проблемы с точностью TRА, особенно при работе с длинными высказываниями, где разница в длине участков текста и речи может привести к расхождениям. Необходимо разработать эффективные способы улучшить алигнмент, чтобы обеспечить высокое качество генерируемой речи при длительных высказываниях.
## Метод
Мы предлагаем **Length-Aware Rotary Position Embedding (LARoPE)**, расширение Rotary Position Embedding (RoPE), которое учитывает длину участков для улучшения text-speech alignment. В отличие от RoPE, которое использует абсолютные индексы для кодирования позиций, LARoPE вычисляет относительные расстояния между позициями запроса (query) и ключа (key) с использованием length-normalized indices. Это позволяет лучше адаптироваться к изменениям в длине участков в тексте и речи. Метод основывается на трансформерной архитектуре и использует кросс-аттенционные механизмы, но с использованием LARoPE в качестве позиционных признаков.
## Результаты
Мы проводили эксперименты на стандартных датасетах TTS, включая LJSpeech и LibriTTS, сравнивая LARoPE с RoPE. Эксперименты показали, что LARoPE улучшает text-speech alignment, снижает word error rate (WER) и обеспечивает более высокое качество генерируемой речи. Например, в тестах на длинных высказываниях (до 30 секунд) LARoPE показала стабильное выполнение, в то время как RoPE имела заметные расхождения. Мы также проверили устойчивость модели к изменениям в длине участков текста и речи, и LARoPE показала лучшие результаты. Был доказан состояние технологии (SOTA) по WER на zero-shot TTS benchmark.
## Значимость
Результаты LARoPE демонстрируют ее применимость в TTS-системах, особенно для длинных аудио-высказываний. Это может повысить качество речи и улучшить доступность звукового контента в различных сценариях применения, таких как видеоконференции, интерактивные системы и доступность контента. LARoPE также снижает WER и обеспечивает более точный алигнмент, что может положительно сказаться на качестве речи и ее понятности. Будущие исследования могут сосредоточиться на расширении LARoPE для работы с мультимодальными данными и улучшению ее скорости и эффе
Abstract
Many recent text-to-speech (TTS) systems are built on transformer
architectures and employ cross-attention mechanisms for text-speech alignment.
Within these systems, rotary position embedding (RoPE) is commonly used to
encode positional information in text and speech representations. In this work,
we introduce length-aware RoPE (LARoPE), a simple yet effective extension of
RoPE that improves text-speech alignment. Unlike RoPE, which relies on absolute
indices, LARoPE computes relative distances between query and key positions
using length-normalized indices. Experimental results show that LARoPE
consistently outperforms RoPE, offering faster loss convergence, more accurate
text-speech alignment, and higher overall TTS quality. Furthermore, LARoPE
demonstrates greater resilience to variations in utterance duration and
maintains stable performance in extended speech generation up to 30 seconds,
whereas RoPE suffers from notable degradation. Notably, our method achieves a
state-of-the-art word error rate on a standard zero-shot TTS benchmark.