Chunk Based Speech Pre-training with High Resolution Finite Scalar Quantization
2509.15579v1
cs.CL, cs.SD, eess.AS
2025-09-23
Авторы:
Yun Tang, Cindy Tseng
Резюме на русском
## Контекст
Современные технологии управления речи становятся все более необходимыми в различных приложениях, от смартфонов до систем управления домашним техником. Однако в ситуациях, когда требуется высокая скорость обработки и низкая задержка, классические подходы к обучению моделей часто не могут справиться с этим заданием. Одной из основных проблем является то, что большинство существующих самостоятельно обучающихся алгоритмов разрабатывались с целью обработки полных фраз, тогда как в реальных ситуациях часто приходится работать с частичными фразами, например, во время передачи потокового аудио. Этот аспект становится ключевым при разработке методов, которые могут эффективно работать в структурированных, но частичных данных. Мы предлагаем метод, который может работать как в стриминговых, так и в оффлайн-режимах, предоставив более гибкий и эффективный подход к обучению моделей речи.
## Метод
Наш подход, обозначаемый как Chunk-Based Self-Supervised Learning (Chunk SSL), предлагает новый подход к обучению моделей речи. Мы разбиваем аудио фрагменты на чанки (сегменты) и обучаем модель с помощью маскированного предсказания. Такой подход позволяет модели не только обучаться на всем фрагменте, но также использовать информацию из предыдущих чанков. Мы также используем копирование и добавление данных для эффективной пре-тренировки. Это позволяет модели превосходно работать в стриминговых сценариях, когда данные поступают потоком. Для эффективной обработки больших количеств данных, мы используем Финитный Скалярный Квантизатор (FSQ), что позволяет сократить вычислительные затраты и увеличить точность. Также, мы применяем групповую маскированную потерю, чтобы уменьшить память и вычислительные затраты в ходе обучения.
## Результаты
Мы проверили нашу модель на двух различных датасетах: LibriSpeech и Must-C. Результаты показали, что наш подход дает высокую точность как в стриминговых, так и в оффлайновых сценариях. Модель показала себя эффективно в обеих задачах: речи в текст и перевод речи. В сравнении с другими самостоятельно обучающимися алгоритмами, наш метод демонстрирует более высокую точность и гибкость, особенно в ситуациях, когда данные поступают потоком. Это делает нашу модель более подходящей для реальных ситуаций, когда требуется высокая производительность и низкая задержка.
## Значимость
Метод Chunk SSL может быть применен в различных областях, включая системы управления речи, распознавание речи, перевод речи и даже в развитие новых интерактивных систем. Он позволяет эффективно обрабатывать частичные данные, что очень важно в реальных
Abstract
Low latency speech human-machine communication is becoming increasingly
necessary as speech technology advances quickly in the last decade. One of the
primary factors behind the advancement of speech technology is self-supervised
learning. Most self-supervised learning algorithms are designed with full
utterance assumption and compromises have to made if partial utterances are
presented, which are common in the streaming applications. In this work, we
propose a chunk based self-supervised learning (Chunk SSL) algorithm as an
unified solution for both streaming and offline speech pre-training. Chunk SSL
is optimized with the masked prediction loss and an acoustic encoder is
encouraged to restore indices of those masked speech frames with help from
unmasked frames in the same chunk and preceding chunks. A copy and append data
augmentation approach is proposed to conduct efficient chunk based
pre-training. Chunk SSL utilizes a finite scalar quantization (FSQ) module to
discretize input speech features and our study shows a high resolution FSQ
codebook, i.e., a codebook with vocabulary size up to a few millions, is
beneficial to transfer knowledge from the pre-training task to the downstream
tasks. A group masked prediction loss is employed during pre-training to
alleviate the high memory and computation cost introduced by the large
codebook. The proposed approach is examined in two speech to text tasks, i.e.,
speech recognition and speech translation. Experimental results on the
\textsc{Librispeech} and \textsc{Must-C} datasets show that the proposed method
could achieve very competitive results for speech to text tasks at both
streaming and offline modes.
Ссылки и действия
Дополнительные ресурсы: