## Контекст
Speech generation становится все более важной областью исследований в области глубокого обучения, особенно в связи с развитием large language models (LLMs). Одна из основных проблем в этой области — это проблема эффективности при генерации речи, которая связана с различиями между текстовыми токенами и дискретными акустическими кодовыми буферами, используемыми в LLMs. Эти кодовые буферы делятся на несколько наборов (multicodebook structure), что затрудняет процесс параллельной генерации. Несмотря на то, что такие модели позволяют достигать высокой производительности, они часто страдают от уменьшения точности и качества звука. Это влечет за собой необходимость разработки более эффективных стратегий для решения этих проблем, что и стало мотивацией для данного исследования.
## Метод
В данном работе предлагается использовать архитектуру Frame-Stacked Local Transformers, которая состоит из двух основных элементов. Первый — это autoregressive transformer, который позволяет предсказывать несколько кодовых буферов одновременно, чтобы уменьшить время генерации. Второй — это MaskGIT-based transformer, который использует маскированную предсказательную модель, чтобы улучшить точность и качество звука. Более того, в работе представлена идея frame stacking, где подряд идущие фреймы генерируются одновременно, что позволяет эффективно использовать ресурсы. Метод также включает в себя исследование различных стратегий decoding, таких как autoregressive и iterative, чтобы понять, какие из них лучше подходят для различных задач, где нужно выбирать между скоростью и качеством.
## Результаты
Для проверки эффективности предлагаемой модели, проведено ряд экспериментов с разными наборами данных. Были сравнены различные варианты decoding, включая autoregressive и iterative sampling. Результаты показали, что Frame-Stacked Local Transformers позволяют достигать высокой скорости генерации, не утрачивая качества звука. Также были проанализированы точность и качество звука, полученных при использовании разных моделей, которые показали, что MaskGIT-based transformer дает лучшие результаты в случае необходимости повысить качество. Исследования также показали, что frame stacking может существенно увеличить производительность, не снижая качества.
## Значимость
Предлагаемая модель имеет большой потенциал в сфере генерации речи, особенно в сетях, где необходима высокая производительность и качество звука. Модель может быть применена в различных областях, включая синтез речи, генерацию голосов для видео и генерацию речи в реальном времени. Одним из основных преимуществ является то, что Frame-Stacked Local Transformers эффективнее существующих моделей, не требуя того же уровня ресурсов. Это может позволить применять модель в сценариях, где доступ к высокопроизводительной технике