BiRQ: Bi-Level Self-Labeling Random Quantization for Self-Supervised Speech Recognition

2509.15430v1 cs.CL, cs.SD, eess.AS 2025-09-23
Авторы:

Liuyuan Jiang, Xiaodong Cui, Brian Kingsbury, Tianyi Chen, Lisha Chen

Резюме на русском

## Контекст Самостоятельное обучение с подкреплением (self-supervised learning, SSL) является ключевым подходом для обработки звуковых сигналов, позволяющим эффективно извлекать представления из звуковых сигналов без масштабного требования ручной метки. Однако активность требует качественных меток для обучения, что оказывается трудоемким и дорогостоящим процессом. Например, в слушательской подготовке, где данные отмечены явным образом, требуется огромное количество времени и ресурсов для получения надежных меток. Билет (BiRQ) предлагает решение этой проблемы, объединяя простоту и высокую точность, чтобы обеспечить самостоятельную подготовку речи в сложных сценариях. ## Метод BiRQ представляет собой билетный (bi-level) подход к самостоятельной слушательской подготовке, где основная идея заключается в использовании части модели для производства подкрепленных меток. Модель выполняет дискретизацию посредством случайной проекции, чтобы создавать эффективные метки, в то же время используя стабилизующие метки, напрямую извлеченные из входных данных. Это динамическая система, которая использует билетный концепт для решения задачи с оптимизацией первого порядка. Инновационной частью является использование Gumbel-softmax для селективного обучения, что позволяет выполнять эту оптимизацию в безпрерывном режиме. ## Результаты Метод был проверен на различных речи-датасетах, таких как LibriSpeech (960 часов), AMI (150 часов) и YODAS (5000 часов). Эксперименты показали, что BiRQ существенно улучшает результаты по сравнению с BEST-RQ, оставаясь простым в реализации и эффективным в ресурсах. Это указывает на не только эффективность, но и устойчивость метода в различных условиях. ## Значимость BiRQ подходит для различных применений, включая системы транскрибации речи и системы распознавания речи в нетерминированных сценариях. Его главное преимущество заключается в том, что он объединяет простоту и эффективность, что делает его привлекательным для разработчиков. Билетный подход также открывает путь к будущим исследованиям в области самостоятельного обучения, в том числе в области изучения различных моделей автоматического распознавания речи. ## Выводы BiRQ достигает оптимального баланса между простотой и качеством меток, что делает его выдающимся решением для самостоятельного звукового обучения. Будущие исследования будут сосредоточены на расширении применения BiRQ к другим типам сигналов и улучшении его работы в условиях сильного шума и нестандартных акцентов.

Abstract

Speech is a rich signal, and labeled audio-text pairs are costly, making self-supervised learning essential for scalable representation learning. A core challenge in speech SSL is generating pseudo-labels that are both informative and efficient: strong labels, such as those used in HuBERT, improve downstream performance but rely on external encoders and multi-stage pipelines, while efficient methods like BEST-RQ achieve simplicity at the cost of weaker labels. We propose BiRQ, a bilevel SSL framework that combines the efficiency of BEST-RQ with the refinement benefits of HuBERT-style label enhancement. The key idea is to reuse part of the model itself as a pseudo-label generator: intermediate representations are discretized by a random-projection quantizer to produce enhanced labels, while anchoring labels derived directly from the raw input stabilize training and prevent collapse. Training is formulated as an efficient first-order bilevel optimization problem, solved end-to-end with differentiable Gumbel-softmax selection. This design eliminates the need for external label encoders, reduces memory cost, and enables iterative label refinement in an end-to-end fashion. BiRQ consistently improves over BEST-RQ while maintaining low complexity and computational efficiency. We validate our method on various datasets, including 960-hour LibriSpeech, 150-hour AMI meetings and 5,000-hour YODAS, demonstrating consistent gains over BEST-RQ.

Ссылки и действия