VoXtream: Full-Stream Text-to-Speech with Extremely Low Latency

2509.15969v1 eess.AS, cs.CL, cs.HC, cs.LG, cs.SD 2025-09-23

Авторы:

Nikita Torgashov, Gustav Eje Henter, Gabriel Skantze

Резюме на русском

## Контекст В последние годы текстовые- Na по-речевые системы (TTS) стали важной частью цифровых технологий, используясь в различных областях, от смартфонов и автомобилей до умных домов и роботов. Однако многие существующие системы страдают от долгого времени отклика, что ограничивает их применение в реальном времени. Требуется новая подход, позволяющий осуществлять стриминговый TTS с минимальным задержкой, чтобы обеспечить быструю и надежную реализацию речи в различных сценариях. ## Метод VoXtream представляет собой полностью авторегрессионную, нулевой-задержкочную стриминговую систему TTS, которая начинает говорить с первого слова. Она использует монотоническую схему выравнивания и динамическую внешнесть, позволяющую не дожидаться задержки до начала речи. Архитектура VoXtream основана на трех основных компонентах: инкрементальном трансформере фонем, трансформере временных характеристик, прогнозирующему семантические и длительностные токены, и трансформере акустических характеристик, который производит аудиотокены. Эта структура обеспечивает высокую скорость и качество речевого анализа и генерации. ## Результаты Используя 9к-часовую корпус, VoXtream была тестирована в различных условиях, включая выходной стриминговый режим и полностью стриминговый набор. Она показала сравнительное качество с более крупными системами, при этом удовлетворяя требованиям к минимальной задержке. На GPU VoXtream достигла задержки в 102 мс, что является одним из наилучших результатов среди доступных TTS. ## Значимость VoXtream может применяться в различных ситуациях, где необходима быстрая и надежная реагирования, таких как помощьные технологии, умные дома и нейротехнологии. Ее минимальная задержка и высокое качество говорения делают ее привлекательной для развития реального времени TTS. ## Выводы VoXtream достигает своего целевого качества и минимальной задержки благодаря инновационной архитектуре и монотоническому выравниванию. Будущие исследования будут сфокусированы на улучшении качества вывода и оптимизации архитектуры для различных устройств и сценариев.

Abstract

We present VoXtream, a fully autoregressive, zero-shot streaming text-to-speech (TTS) system for real-time use that begins speaking from the first word. VoXtream directly maps incoming phonemes to audio tokens using a monotonic alignment scheme and a dynamic look-ahead that does not delay onset. Built around an incremental phoneme transformer, a temporal transformer predicting semantic and duration tokens, and a depth transformer producing acoustic tokens, VoXtream achieves, to our knowledge, the lowest initial delay among publicly available streaming TTS: 102 ms on GPU. Despite being trained on a mid-scale 9k-hour corpus, it matches or surpasses larger baselines on several metrics, while delivering competitive quality in both output- and full-streaming settings. Demo and code are available at https://herimor.github.io/voxtream.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Резюме на русском

Abstract

Ссылки и действия

Навигация