Iterative refinement, not training objective, makes HuBERT behave differently from wav2vec 2.0

2508.08110v1 cs.CL, cs.SD, eess.AS 2025-08-13

Авторы:

Robin Huo, Ewan Dunbar

Резюме на русском

#### Контекст Самостоятельное обучение моделей для отображения речи в высококачественные слоевые представления становится все более популярным в связи с их универсальностью и высокой эффективностью на задачах классификации звука, восприятия речи и аналогичных. Однако, по проблеме влияния архитектуры моделей на эту возможность значительно меньше исследований. Два из ведущих моделей в этой области — HuBERT и wav2vec 2.0 — отличаются значительно. Минимальное сравнение этих моделей позволяет выявить, насколько важной для результатов является именно архитектура, а не только выбранная цель обучения. #### Метод Основной экспериментальный подход заключается в сравнении двух моделей — HuBERT и wav2vec 2.0 — с различными исходными архитектурами и целями обучения. Для этого используется метод многоитерационного уточнения псевдомаеток (iterative pseudo-label refinement), который применяется к каждой модели. Эти уточнения применяются для каждого этапа обучения, позволяя увидеть, насколько эта процедура влияет на полученные представления речи. Архитектура каждой модели остается тем же, но смещаются цели обучения и их методы рефиней. #### Результаты В ходе экспериментов было выявлено, что HuBERT и wav2vec 2.0, несмотря на разные цели обучения, демонстрируют значительные различия в их представлениях речи. Основное отличие заключается в том, что HuBERT получает более высокую корреляцию с значениями слов, фонем и речи, чем wav2vec 2.0. Это отличие обусловлено не самой целью обучения, а именно многоитерационным уточнением псевдомаеток. Эти последние позволяют кластеризовать речи более точно, что в свою очередь приводит к более точным представлениям слов, фонем и речи в самом представлении. #### Значимость Эти результаты имеют важное значение для широкой области применения моделей самостоятельного обучения. Например, в области естественного языка обработки, восприятия речи и транскрибирования, где представления речи играют ключевую роль. Многоитерационный уточняющий процесс позволяет улучшить качество представления речи, что может повысить эффективность применения моделей в реальном мире, особенно в задачах, требующих высокой точности. Этот подход также может быть использован для улучшения других моделей самостоятельного обучения, не только в сфере речи. #### Выводы Итоги исследования показывают, что многоитерационный уточняющий процесс является ключевым фактором в том, как HuBERT извлекает слойные представления речи, а не сама цель обучения. Это открывает путь к будущим исследованиям в области уточнения и совершенствования многоитерационных методов, которые могут быть применены для всякого рода са

Abstract

Self-supervised models for speech representation learning now see widespread use for their versatility and performance on downstream tasks, but the effect of model architecture on the linguistic information learned in their representations remains under-studied. This study investigates two such models, HuBERT and wav2vec 2.0, and minimally compares two of their architectural differences: training objective and iterative pseudo-label refinement through multiple training iterations. We find that differences in canonical correlation of hidden representations to word identity, phoneme identity, and speaker identity are explained by training iteration, not training objective. We suggest that future work investigate the reason for the effectiveness of iterative refinement in encoding linguistic information in self-supervised speech representations.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Iterative refinement, not training objective, makes HuBERT behave differently from wav2vec 2.0

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Joint Speech and Text Training for LLM-Based End-to-End Spoken Dialogue State Tr...

Mispronunciation Detection and Diagnosis Without Model Training: A Retrieval-Bas...

Proactive Hearing Assistants that Isolate Egocentric Conversations

Hallucination Benchmark for Speech Foundation Models

MTP-S2UT: Enhancing Speech-to-Speech Translation Quality with Multi-token Predic...

Навигация