📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Iterative refinement, not training objective, makes HuBERT behave differently from wav2vec 2.0

2025-08-13

Авторы:

Robin Huo, Ewan Dunbar

#### Контекст Самостоятельное обучение моделей для отображения речи в высококачественные слоевые представления становится все более популярным в связи с их универсальностью и высокой эффективностью на задачах классификации звука, восприятия речи и аналогичных. Однако, по проблеме влияния архитектуры моделей на эту возможность значительно меньше исследований. Два из ведущих моделей в этой области — HuBERT и wav2vec 2.0 — отличаются значительно. Минимальное сравнение этих моделей позволяет выявить, насколько важной для результатов является именно архитектура, а не только выбранная цель обучения. #### Метод Основной экспериментальный подход заключается в сравнении двух моделей — HuBERT и wav2vec 2.0 — с различными исходными архитектурами и целями обучения. Для этого используется метод многоитерационного уточнения псевдомаеток (iterative pseudo-label refinement), который применяется к каждой модели. Эти уточнения применяются для каждого этапа обучения, позволяя увидеть, насколько эта процедура влияет на полученные представления речи. Архитектура каждой модели остается тем же, но смещаются цели обучения и их методы рефиней. #### Результаты В ходе экспериментов было выявлено, что HuBERT и wav2vec 2.0, несмотря на разные цели обучения, демонстрируют значительные различия в их представлениях речи. Основное отличие заключается в том, что HuBERT получает более высокую корреляцию с значениями слов, фонем и речи, чем wav2vec 2.0. Это отличие обусловлено не самой целью обучения, а именно многоитерационным уточнением псевдомаеток. Эти последние позволяют кластеризовать речи более точно, что в свою очередь приводит к более точным представлениям слов, фонем и речи в самом представлении. #### Значимость Эти результаты имеют важное значение для широкой области применения моделей самостоятельного обучения. Например, в области естественного языка обработки, восприятия речи и транскрибирования, где представления речи играют ключевую роль. Многоитерационный уточняющий процесс позволяет улучшить качество представления речи, что может повысить эффективность применения моделей в реальном мире, особенно в задачах, требующих высокой точности. Этот подход также может быть использован для улучшения других моделей самостоятельного обучения, не только в сфере речи. #### Выводы Итоги исследования показывают, что многоитерационный уточняющий процесс является ключевым фактором в том, как HuBERT извлекает слойные представления речи, а не сама цель обучения. Это открывает путь к будущим исследованиям в области уточнения и совершенствования многоитерационных методов, которые могут быть применены для всякого рода са

Annotation:

Self-supervised models for speech representation learning now see widespread use for their versatility and performance on downstream tasks, but the effect of model architecture on the linguistic information learned in their representations remains under-studied. This study investigates two such models, HuBERT and wav2vec 2.0, and minimally compares two of their architectural differences: training objective and iterative pseudo-label refinement through multiple training iterations. We find that d...

ID: 2508.08110v1 cs.CL, cs.SD, eess.AS

arXiv PDF

📄 Marco-Voice Technical Report

2025-08-09

Авторы:

Fengping Tian, Chenyang Lyu, Xuanfan Ni, Haoqin Sun, Qingjuan Li, Zhiqiang Qian, Haijun Li, Longyue Wang, Zhao Xu, Weihua Luo, Kaifu Zhang

Научная статья "Marco-Voice Technical Report" предлагает многофункциональную систему генерации речи, которая объединяет в себе технологии клонирования голоса и управления эмоциями в единой структуре. Целью работы является решение проблемы достижения выразительности, контролируемости и естественности генерируемого речи, при этом сохраняя идентичность голоса и эмоции в разных языковых и эмоциональных контекстах. Авторы предлагают механизм разделения голоса и эмоции с помощью встроенного метода контрастного обучения и метод вращательной интеграции эмоциональных векторов для гладкого управления эмоцией. Для обеспечения эффективного обучения и оценки системы, разработана высококачественная эмоциональная голосовая база данных CSEMOTIONS, содержащая 10 часов мандаринского речи с шести профессиональных спикеров по восьми эмоциональным категориям. Эксперименты показали, что система Marco-Voice демонстрирует улучшения в объективных и субъективных метриках, став конкурентоспособной в области выразительной генерации речи на основе нейронных моделей.

Annotation:

This paper presents a multifunctional speech synthesis system that integrates voice cloning and emotion control speech synthesis within a unified framework. The goal of this work is to address longstanding challenges in achieving highly expressive, controllable, and natural speech generation that faithfully preserves speaker identity across diverse linguistic and emotional contexts. Our approach introduces an effective speaker-emotion disentanglement mechanism with in-batch contrastive learning,...

ID: 2508.02038v2 cs.CL, cs.SD, eess.AS

arXiv PDF

📄 Pitch Accent Detection improves Pretrained Automatic Speech Recognition

2025-08-09

Авторы:

David Sasu, Natalie Schluter

Мы рассмотрели проблему недостаточного учета просодических признаков, таких как питч-акцент, в системах автоматического распознавания речи (ASR). Для решения этой проблемы предложена модель, объединяющая ASR с модулем детекции питч-акцента. Этот модуль оказался эффективен: F1-метрика для детекции питч-акцента улучшилась на 41%, а значительное сокращение Word Error Rate (WER) — до 28,3% на LibriSpeech — доказывает, что внедрение просодических признаков улучшает работу ASR. Таким образом, решение позволяет значительно повысить точность распознавания речи, особенно при ограниченных ресурсах, и подчеркивает важность восстановления просодических признаков в моделях ASR.

Annotation:

We show the performance of Automatic Speech Recognition (ASR) systems that use semi-supervised speech representations can be boosted by a complimentary pitch accent detection module, by introducing a joint ASR and pitch accent detection model. The pitch accent detection component of our model achieves a significant improvement on the state-of-the-art for the task, closing the gap in F1-score by 41%. Additionally, the ASR performance in joint training decreases WER by 28.3% on LibriSpeech, under ...

ID: 2508.04814v1 cs.CL, cs.SD, eess.AS

arXiv PDF

Показано 31 - 33 из 33 записей