Chunk Based Speech Pre-training with High Resolution Finite Scalar Quantization

2509.15579v1 cs.CL, cs.SD, eess.AS 2025-09-23
Авторы:

Yun Tang, Cindy Tseng

Резюме на русском

## Контекст Современные технологии управления речи становятся все более необходимыми в различных приложениях, от смартфонов до систем управления домашним техником. Однако в ситуациях, когда требуется высокая скорость обработки и низкая задержка, классические подходы к обучению моделей часто не могут справиться с этим заданием. Одной из основных проблем является то, что большинство существующих самостоятельно обучающихся алгоритмов разрабатывались с целью обработки полных фраз, тогда как в реальных ситуациях часто приходится работать с частичными фразами, например, во время передачи потокового аудио. Этот аспект становится ключевым при разработке методов, которые могут эффективно работать в структурированных, но частичных данных. Мы предлагаем метод, который может работать как в стриминговых, так и в оффлайн-режимах, предоставив более гибкий и эффективный подход к обучению моделей речи. ## Метод Наш подход, обозначаемый как Chunk-Based Self-Supervised Learning (Chunk SSL), предлагает новый подход к обучению моделей речи. Мы разбиваем аудио фрагменты на чанки (сегменты) и обучаем модель с помощью маскированного предсказания. Такой подход позволяет модели не только обучаться на всем фрагменте, но также использовать информацию из предыдущих чанков. Мы также используем копирование и добавление данных для эффективной пре-тренировки. Это позволяет модели превосходно работать в стриминговых сценариях, когда данные поступают потоком. Для эффективной обработки больших количеств данных, мы используем Финитный Скалярный Квантизатор (FSQ), что позволяет сократить вычислительные затраты и увеличить точность. Также, мы применяем групповую маскированную потерю, чтобы уменьшить память и вычислительные затраты в ходе обучения. ## Результаты Мы проверили нашу модель на двух различных датасетах: LibriSpeech и Must-C. Результаты показали, что наш подход дает высокую точность как в стриминговых, так и в оффлайновых сценариях. Модель показала себя эффективно в обеих задачах: речи в текст и перевод речи. В сравнении с другими самостоятельно обучающимися алгоритмами, наш метод демонстрирует более высокую точность и гибкость, особенно в ситуациях, когда данные поступают потоком. Это делает нашу модель более подходящей для реальных ситуаций, когда требуется высокая производительность и низкая задержка. ## Значимость Метод Chunk SSL может быть применен в различных областях, включая системы управления речи, распознавание речи, перевод речи и даже в развитие новых интерактивных систем. Он позволяет эффективно обрабатывать частичные данные, что очень важно в реальных

Abstract

Low latency speech human-machine communication is becoming increasingly necessary as speech technology advances quickly in the last decade. One of the primary factors behind the advancement of speech technology is self-supervised learning. Most self-supervised learning algorithms are designed with full utterance assumption and compromises have to made if partial utterances are presented, which are common in the streaming applications. In this work, we propose a chunk based self-supervised learning (Chunk SSL) algorithm as an unified solution for both streaming and offline speech pre-training. Chunk SSL is optimized with the masked prediction loss and an acoustic encoder is encouraged to restore indices of those masked speech frames with help from unmasked frames in the same chunk and preceding chunks. A copy and append data augmentation approach is proposed to conduct efficient chunk based pre-training. Chunk SSL utilizes a finite scalar quantization (FSQ) module to discretize input speech features and our study shows a high resolution FSQ codebook, i.e., a codebook with vocabulary size up to a few millions, is beneficial to transfer knowledge from the pre-training task to the downstream tasks. A group masked prediction loss is employed during pre-training to alleviate the high memory and computation cost introduced by the large codebook. The proposed approach is examined in two speech to text tasks, i.e., speech recognition and speech translation. Experimental results on the \textsc{Librispeech} and \textsc{Must-C} datasets show that the proposed method could achieve very competitive results for speech to text tasks at both streaming and offline modes.

Ссылки и действия