📚 Саммари научных статей из arXiv

Найдено 83 результатов по запросу 'cs.CL, cs.SD' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 BiRQ: Bi-Level Self-Labeling Random Quantization for Self-Supervised Speech Recognition

2025-09-23

Авторы:

Liuyuan Jiang, Xiaodong Cui, Brian Kingsbury, Tianyi Chen, Lisha Chen

## Контекст Самостоятельное обучение с подкреплением (self-supervised learning, SSL) является ключевым подходом для обработки звуковых сигналов, позволяющим эффективно извлекать представления из звуковых сигналов без масштабного требования ручной метки. Однако активность требует качественных меток для обучения, что оказывается трудоемким и дорогостоящим процессом. Например, в слушательской подготовке, где данные отмечены явным образом, требуется огромное количество времени и ресурсов для получения надежных меток. Билет (BiRQ) предлагает решение этой проблемы, объединяя простоту и высокую точность, чтобы обеспечить самостоятельную подготовку речи в сложных сценариях. ## Метод BiRQ представляет собой билетный (bi-level) подход к самостоятельной слушательской подготовке, где основная идея заключается в использовании части модели для производства подкрепленных меток. Модель выполняет дискретизацию посредством случайной проекции, чтобы создавать эффективные метки, в то же время используя стабилизующие метки, напрямую извлеченные из входных данных. Это динамическая система, которая использует билетный концепт для решения задачи с оптимизацией первого порядка. Инновационной частью является использование Gumbel-softmax для селективного обучения, что позволяет выполнять эту оптимизацию в безпрерывном режиме. ## Результаты Метод был проверен на различных речи-датасетах, таких как LibriSpeech (960 часов), AMI (150 часов) и YODAS (5000 часов). Эксперименты показали, что BiRQ существенно улучшает результаты по сравнению с BEST-RQ, оставаясь простым в реализации и эффективным в ресурсах. Это указывает на не только эффективность, но и устойчивость метода в различных условиях. ## Значимость BiRQ подходит для различных применений, включая системы транскрибации речи и системы распознавания речи в нетерминированных сценариях. Его главное преимущество заключается в том, что он объединяет простоту и эффективность, что делает его привлекательным для разработчиков. Билетный подход также открывает путь к будущим исследованиям в области самостоятельного обучения, в том числе в области изучения различных моделей автоматического распознавания речи. ## Выводы BiRQ достигает оптимального баланса между простотой и качеством меток, что делает его выдающимся решением для самостоятельного звукового обучения. Будущие исследования будут сосредоточены на расширении применения BiRQ к другим типам сигналов и улучшении его работы в условиях сильного шума и нестандартных акцентов.

Annotation:

Speech is a rich signal, and labeled audio-text pairs are costly, making self-supervised learning essential for scalable representation learning. A core challenge in speech SSL is generating pseudo-labels that are both informative and efficient: strong labels, such as those used in HuBERT, improve downstream performance but rely on external encoders and multi-stage pipelines, while efficient methods like BEST-RQ achieve simplicity at the cost of weaker labels. We propose BiRQ, a bilevel SSL fram...

ID: 2509.15430v1 cs.CL, cs.SD, eess.AS

arXiv PDF

📄 Chunk Based Speech Pre-training with High Resolution Finite Scalar Quantization

2025-09-23

Авторы:

Yun Tang, Cindy Tseng

## Контекст Современные технологии управления речи становятся все более необходимыми в различных приложениях, от смартфонов до систем управления домашним техником. Однако в ситуациях, когда требуется высокая скорость обработки и низкая задержка, классические подходы к обучению моделей часто не могут справиться с этим заданием. Одной из основных проблем является то, что большинство существующих самостоятельно обучающихся алгоритмов разрабатывались с целью обработки полных фраз, тогда как в реальных ситуациях часто приходится работать с частичными фразами, например, во время передачи потокового аудио. Этот аспект становится ключевым при разработке методов, которые могут эффективно работать в структурированных, но частичных данных. Мы предлагаем метод, который может работать как в стриминговых, так и в оффлайн-режимах, предоставив более гибкий и эффективный подход к обучению моделей речи. ## Метод Наш подход, обозначаемый как Chunk-Based Self-Supervised Learning (Chunk SSL), предлагает новый подход к обучению моделей речи. Мы разбиваем аудио фрагменты на чанки (сегменты) и обучаем модель с помощью маскированного предсказания. Такой подход позволяет модели не только обучаться на всем фрагменте, но также использовать информацию из предыдущих чанков. Мы также используем копирование и добавление данных для эффективной пре-тренировки. Это позволяет модели превосходно работать в стриминговых сценариях, когда данные поступают потоком. Для эффективной обработки больших количеств данных, мы используем Финитный Скалярный Квантизатор (FSQ), что позволяет сократить вычислительные затраты и увеличить точность. Также, мы применяем групповую маскированную потерю, чтобы уменьшить память и вычислительные затраты в ходе обучения. ## Результаты Мы проверили нашу модель на двух различных датасетах: LibriSpeech и Must-C. Результаты показали, что наш подход дает высокую точность как в стриминговых, так и в оффлайновых сценариях. Модель показала себя эффективно в обеих задачах: речи в текст и перевод речи. В сравнении с другими самостоятельно обучающимися алгоритмами, наш метод демонстрирует более высокую точность и гибкость, особенно в ситуациях, когда данные поступают потоком. Это делает нашу модель более подходящей для реальных ситуаций, когда требуется высокая производительность и низкая задержка. ## Значимость Метод Chunk SSL может быть применен в различных областях, включая системы управления речи, распознавание речи, перевод речи и даже в развитие новых интерактивных систем. Он позволяет эффективно обрабатывать частичные данные, что очень важно в реальных

Annotation:

Low latency speech human-machine communication is becoming increasingly necessary as speech technology advances quickly in the last decade. One of the primary factors behind the advancement of speech technology is self-supervised learning. Most self-supervised learning algorithms are designed with full utterance assumption and compromises have to made if partial utterances are presented, which are common in the streaming applications. In this work, we propose a chunk based self-supervised learni...

ID: 2509.15579v1 cs.CL, cs.SD, eess.AS

arXiv PDF

📄 VOX-KRIKRI: Unifying Speech and Language through Continuous Fusion

2025-09-23

Авторы:

Dimitrios Damianos, Leon Voukoutis, Georgios Paraskevopoulos, Vassilis Katsouros

#### Контекст В последние годы значительный прогресс в области распознавания речи и обработки естественного языка был достигнут благодаря развитию больших языковых моделей (LLM) и архитектур с преобразованием Фурье. Однако проблема существует в синергетичном использовании этих моделей для обеспечения более развитой интерактивности между речи и языком. Особенно выраженная эта проблема в многоязычных и низкоресурсных регионах, где доступ к сложным технологиям ограничен. Наша исследовательская группа адресовала эту проблему, стремясь создать модель, которая бы учитывала обе модели в равной степени, повышая точность и общую эффективность. #### Метод Мы предлагаем **VOX-KRIKRI**, рамочную систему, которая объединяет предварительно обученные LLM-модели и акустические архитектуры, такие как Whisper, для построения системы с преобразованием речи и языка. В отличие от прямого использования акустических эмбеддингов, мы предлагаем интермедиатную модель, объединяющую акустические скрытые состояния лексического моделирования с текстовыми эмбеддингами. Модель работает в постоянном виде и может быть применена в оффлайн и режиме стриминга. Мы также представили первую греческую модель с преобразованием речи и языка, которая является результатом нашего подхода. Основной механизм — это межмодальное взаимодействие через кросс-модальное внимание, которое позволяет модели одновременно обрабатывать речевые и языковые сигналы. #### Результаты Мы провели многочисленные эксперименты с различными данными и показали, что наш подход позволяет достичь существенных улучшений в распознавании речи. Мы проверили нашу модель на греческом языке, и результаты показали относительное улучшение в распознавании речи на $\sim 20\%$ по сравнению с предыдущими решениями. Эти результаты были достигнуты благодаря мощному кросс-модальному взаимодействию и эффективной интеграции LLM и акустических моделей. Мы также проверили нашу модель на других языках и получили положительные результаты, что подтверждает многоязычность и эффективность нашего подхода. #### Значимость Наше решение имеет большое значение для многоязычных и низкоресурсных решений в области транскрибирования речи. Эта модель может быть применена в различных сферах, включая здравоохранение, преподавание и управление, где преобразование речи и языка является ключевым компонентом. Мы показали, что континьюирование в пространстве текста в качестве метода фузирования может быть эффективно для решения проблемы многоязычного распознавания речи и обеспечивает новые шан

Annotation:

We present a multimodal fusion framework that bridges pre-trained decoder-based large language models (LLM) and acoustic encoder-decoder architectures such as Whisper, with the aim of building speech-enabled LLMs. Instead of directly using audio embeddings, we explore an intermediate audio-conditioned text space as a more effective mechanism for alignment. Our method operates fully in continuous text representation spaces, fusing Whisper's hidden decoder states with those of an LLM through cross...

ID: 2509.15667v1 cs.CL, cs.SD, eess.AS

arXiv PDF

📄 Fine-Tuning Large Multimodal Models for Automatic Pronunciation Assessment

2025-09-23

Авторы:

Ke Wang, Wenning Wei, Yan Deng, Lei He, Sheng Zhao

#### Контекст Automatic Pronunciation Assessment (APA) является ключевым компонентом Computer-Assisted Language Learning (CALL), позволяя оценивать речевые навыки студентов в различных аспектах и уровнях гранулярности. Однако, существующие методы часто сталкиваются с ограничениями в точности, гибкости и объеме обучающих данных. Большие multimodal models (LMMs), в свою очередь, предлагают новые возможности для решения этих проблем, однако их применение в области APA еще низкозадействовано. Мотивация исследования заключается в исследовании возможностей LMMs для fine-grained assessment в CALL и определении их преимуществ и ограничений в этой области. #### Метод Для исследования использовался Speechocean762 dataset, а также специальный private corpus, содержащий записи речи и метки для оценки произношения. Методология включала fine-tuning LMMs с помощью transfer learning на основе задачи classification. Модель обучалась на знакомом датасете и адаптировалась к новым данным с помощью fine-tuning. Для оценки результатов использовались Pearson Correlation Coefficient (PCC) и Spearman's rank Correlation Coefficient (SCC), которые позволяют измерить корреляцию между прогностическими и тестовыми оценками. Набор экспериментов включал fine-grained assessment на разных гранулярностях: phoneme, word и sentence levels. #### Результаты Fine-tuning LMMs позволило значительно повысить эффективность по сравнению с zero-shot настройкой. Модель показала высокую точность на word и sentence levels, предоставляя результаты, конкурентоспособные с public и commercial systems. Однако phoneme-level assessment остается сложной задачей, где LMMs показывают существенные ограничения. PCC достиг 0.9, что указывает на высокую корреляцию, но SCC остался на уровне 0.6, что отражает несовершенство ordinal consistency в сравнении с PCC. #### Значимость Полученные результаты открывают перспективы применения LMMs в CALL, особенно для fine-grained assessment в CALL. Модель демонстрирует высокую эффективность в word и sentence levels, что может быть использовано для оценки прогресса студентов в речевых навыках. Тем не менее, существующие ограничения в phoneme-level assessment требуют дальнейших исследований. Направления будущих исследований могут включать развитие fine-grained modeling, а также рассмотрение rank-aware evaluation для более точной оценки ordinal consistency. #### Выводы Исследование показало, что fine-tuning LMMs является эффективным способом улучшения Automatic Pronunciation Assessment в CALL. Однако, существуют ограничения, особенно в phoneme-level assessment, которые требуют дополнительных исследований. Общий потенциал LMMs в CALL очевиден, и дальнейшие работы могут сфокусироваться на развитии более точных и rank-aware моделей.

Annotation:

Automatic Pronunciation Assessment (APA) is critical for Computer-Assisted Language Learning (CALL), requiring evaluation across multiple granularities and aspects. Large Multimodal Models (LMMs) present new opportunities for APA, but their effectiveness in fine-grained assessment remains uncertain. This work investigates fine-tuning LMMs for APA using the Speechocean762 dataset and a private corpus. Fine-tuning significantly outperforms zero-shot settings and achieves competitive results on sin...

ID: 2509.15701v1 cs.CL, cs.SD, eess.AS

arXiv PDF

📄 From Turn-Taking to Synchronous Dialogue: A Survey of Full-Duplex Spoken Language Models

2025-09-20

Авторы:

Yuxuan Chen, Haoyuan Yu

## Контекст Улучшение голосового взаимодействия между людьми и системами — задача, на протяжении десятилетий требующая решения в области искусственного интеллекта. Особенно важной является задача построения систем, которые бы смогли принимать решения сразу в течение разговора, не дожидаясь завершения выступления одной стороны. Это называется True Full-Duplex (TFD) связью. Проблема заключается в том, что традиционные модели не умеют нормально обрабатывать многоуровневые ситуации: говорить и слушать одновременно, включая перекрывающиеся речи или прерывания. Эти сложности ограничивают модели в способности вести природный, людский разговор. Мотивация для данного исследования состоит в том, чтобы изучить новые подходы к построению моделей, которые бы полностью копировали человеческий метод общения — слушая и говоря одновременно, смысленно и без прерываний. ## Метод Для построения моделей Full-Duplex Spoken Language Models (FD-SLMs) используют два основных подхода: Engineered Synchronization и Learned Synchronization. В первом случае строится модульная архитектура, где каждая функция (например, синхронизация, семантическое понимание) выполняется отдельным модулем. Во втором случае применяется единая конечно-полное архитектура (end-to-end), где все процессы обучаются вместе. Также важной частью этого метода является формирование каркаса для оценки моделей, который включает в себя несколько основных аспектов: Темпоральные Динамики (как модель справляется с перекрывающимися речью), Бихевиоральную Арбитрацию (как модель решает когда говорить или слушать), Семантическую Размышленность (как хорошо модель понимает и выражает смысл) и Акустическую Производительность (качество звука). ## Результаты В ходе исследования были проведены эксперименты с несколькими моделями FD-SLMs. Использовались различные данные, включая синтезированные голоса и реальные записи разговоров. На основе этих экспериментов были получены следующие результаты: 1) модели с Learned Synchronization показали более высокую семантическую точность и естественность в общении. 2) Модели с Engineered Synchronization демонстрировали лучшую реакцию на синхронизационные задачи. В целом, результаты показали, что в области синхронного разговора существуют значительные разрывы в понимании, архитектуре и оценке моделей. ## Значимость Результаты этого исследования могут быть применены в различных областях, таких как виртуальные помощники, конференц-связь и системы управления. Основные преимущества: повышение эффективности взаимодействия систем и человека, улучшение понимания пользователей и более естественное взаимодействие. Люди с огра

Annotation:

True Full-Duplex (TFD) voice communication--enabling simultaneous listening and speaking with natural turn-taking, overlapping speech, and interruptions--represents a critical milestone toward human-like AI interaction. This survey comprehensively reviews Full-Duplex Spoken Language Models (FD-SLMs) in the LLM era. We establish a taxonomy distinguishing Engineered Synchronization (modular architectures) from Learned Synchronization (end-to-end architectures), and unify fragmented evaluation appr...

ID: 2509.14515v1 cs.CL, cs.SD, eess.AS

arXiv PDF

📄 CS-FLEURS: A Massively Multilingual and Code-Switched Speech Dataset

2025-09-19

Авторы:

Brian Yan, Injy Hamed, Shuichiro Shimizu, Vasista Lodagala, William Chen, Olga Iakovenko, Bashar Talafha, Amir Hussein, Alexander Polok, Kalvin Chang, Dominik Klement, Sara Althubaiti, Puyuan Peng, Matthew Wiesner, Thamar Solorio, Ahmed Ali, Sanjeev Khudanpur, Shinji Watanabe, Chih-Chen Chen, Zhen Wu, Karim Benharrak, Anuj Diwan, Samuele Cornell, Eunjung Yeo, Kwanghee Choi, Carlos Carvalho, Karen Rosero

## Контекст В статье представляется CS-FLEURS, большой многоязычный датасет для развития и оценки систем распознавания и перевода кодоподменных речи вне высокоресурсных языков. Эту область исследования недостаточно изучали, несмотря на ее важность для многоязычности и межкультурного общения. Существующие датасеты либо ограничены определенными языками, либо не подходят для тренировки и оценки систем. Для оптимального использования ML-алгоритмов необходимы масштабные и широко представительные датасеты, чтобы улучшить распознавание и перевод кодоподменных речи. ## Метод CS-FLEURS состоит из 4 тестовых наборов, охватывающих 113 уникальных кодоподменных пар языков в 52 языках. 1) Реальные голоса читают синтетически сгенерированные кодоподменные предложения (14 пар языков). 2) Generative text-to-speech (16 пар языков). 3) 60 пар языков (например, арабский, мандаринский, хинди, испанский с X-языком) с generative text-to-speech. 4) 45 низкоресурсных пар языков с конкатенативным text-to-speech. Датасет также включает 128 часов данных для обучения с генерируемым text-to-speech. Методы включают глубокое обучение и методы распознавания речи. ## Результаты Датасет CS-FLEURS использован для экспериментов с различными моделями распознавания речи. Оценка проводилась на 4 тестовых наборах. Результаты показали, что модели, обученные на этом датасете, показали высокую точность в распознавании и переводе кодоподменных речи, даже в низкоресурсных языках. Это позволяет улучшить технологии, способствующие межкультурному общению и многоязычности. ## Значимость CS-FLEURS может применяться в развитии многоязычных систем распознавания и перевода речи, в том числе для низкоресурсных языков. Он помогает улучшить доступность технологий для межкультурного общения, расширяя представительность в машинном обучении. Это способствует развитию инновационных решений в области глобального коммуникационного пространства. ## Выводы CS-FLEURS — самый крупный многоязычный датасет, расширяющий возможности исследования кодоподменных речи. Он подтверждает важность масштабированных датасетов для развития технологий. Будущие исследования будут ориентированы на улучшение моделей и расширение датасетов для более широкого диапазона языков и условий.

Annotation:

We present CS-FLEURS, a new dataset for developing and evaluating code-switched speech recognition and translation systems beyond high-resourced languages. CS-FLEURS consists of 4 test sets which cover in total 113 unique code-switched language pairs across 52 languages: 1) a 14 X-English language pair set with real voices reading synthetically generated code-switched sentences, 2) a 16 X-English language pair set with generative text-to-speech 3) a 60 {Arabic, Mandarin, Hindi, Spanish}-X langua...

ID: 2509.14161v1 cs.CL, cs.SD, eess.AS

arXiv PDF

📄 Length-Aware Rotary Position Embedding for Text-Speech Alignment

2025-09-17

Авторы:

Hyeongju Kim, Juheon Lee, Jinhyeok Yang, Jacob Morton

## Контекст Текстово-речевые системы (TTS) широко используются для генерации речи на основе текста в различных приложениях, таких как видеоконференции, автоматизированные системы обслуживания, интерактивные ассистенты и доступность звукового контента. Одной из ключевых задач в этих системах является текстово-речевая алигнмент (TRА), которая включает в себя корректное установление соответствия между текстом и его речевой интерпретацией. Одним из известных подходов к решению этой задачи является использование трансформеров с кросс-аттенцией. Однако, текущие модели TTS имеют проблемы с точностью TRА, особенно при работе с длинными высказываниями, где разница в длине участков текста и речи может привести к расхождениям. Необходимо разработать эффективные способы улучшить алигнмент, чтобы обеспечить высокое качество генерируемой речи при длительных высказываниях. ## Метод Мы предлагаем **Length-Aware Rotary Position Embedding (LARoPE)**, расширение Rotary Position Embedding (RoPE), которое учитывает длину участков для улучшения text-speech alignment. В отличие от RoPE, которое использует абсолютные индексы для кодирования позиций, LARoPE вычисляет относительные расстояния между позициями запроса (query) и ключа (key) с использованием length-normalized indices. Это позволяет лучше адаптироваться к изменениям в длине участков в тексте и речи. Метод основывается на трансформерной архитектуре и использует кросс-аттенционные механизмы, но с использованием LARoPE в качестве позиционных признаков. ## Результаты Мы проводили эксперименты на стандартных датасетах TTS, включая LJSpeech и LibriTTS, сравнивая LARoPE с RoPE. Эксперименты показали, что LARoPE улучшает text-speech alignment, снижает word error rate (WER) и обеспечивает более высокое качество генерируемой речи. Например, в тестах на длинных высказываниях (до 30 секунд) LARoPE показала стабильное выполнение, в то время как RoPE имела заметные расхождения. Мы также проверили устойчивость модели к изменениям в длине участков текста и речи, и LARoPE показала лучшие результаты. Был доказан состояние технологии (SOTA) по WER на zero-shot TTS benchmark. ## Значимость Результаты LARoPE демонстрируют ее применимость в TTS-системах, особенно для длинных аудио-высказываний. Это может повысить качество речи и улучшить доступность звукового контента в различных сценариях применения, таких как видеоконференции, интерактивные системы и доступность контента. LARoPE также снижает WER и обеспечивает более точный алигнмент, что может положительно сказаться на качестве речи и ее понятности. Будущие исследования могут сосредоточиться на расширении LARoPE для работы с мультимодальными данными и улучшению ее скорости и эффе

Annotation:

Many recent text-to-speech (TTS) systems are built on transformer architectures and employ cross-attention mechanisms for text-speech alignment. Within these systems, rotary position embedding (RoPE) is commonly used to encode positional information in text and speech representations. In this work, we introduce length-aware RoPE (LARoPE), a simple yet effective extension of RoPE that improves text-speech alignment. Unlike RoPE, which relies on absolute indices, LARoPE computes relative distances...

ID: 2509.11084v1 eess.AS, cs.AI, cs.CL, cs.SD

arXiv PDF

📄 On the Contribution of Lexical Features to Speech Emotion Recognition

2025-09-10

Авторы:

David Combei

#### Контекст Распознавание эмоций в речи (Speech Emotion Recognition, SER) является важной задачей в области звукового и текстового анализа, которая находит применение в медицине, робототехнике, телекоммуникациях и личных коммуникациях. Основной фокус в этой области, как правило, прикладывается к паралингвистическим признакам, таким как интонация, тембр и произношение. Однако меньше уделяется внимания лексическому содержанию речи, которое также может иметь значительное влияние на распознавание эмоций. Эта задача сопряжена с рядовыми вызовами, включая подготовку данных, обработку звука и эффективное использование текстовой и звуковой информации. #### Метод Мы предлагаем новую модель для распознавания эмоций в речи, основанную на лексических признаках, которая использует представления слов и фраз из речи. Модель основывается на трансформер-базе, включая технологии самостоятельного обучения (Self-Supervised Learning, SSL) для обработки звука и текста. Мы проводим ряд экспериментов, используя данные из набора MELD, а также сравниваем наши результаты с моделью, основанной только на акустических признаках. Также проводится анализ различных слоев трансформеров и эффекта динамического денойсинга аудио. #### Результаты В ходе экспериментов показано, что наша лексическая модель показывает высокую эффективность в распознавании эмоций в речи. На датасете MELD она достигла весомого F1-скора (WF1) в 51.5%, что значительно превышает результат модели, основанной только на акустичных признаках (49.3%). Мы также выявили, что самостоятельное обучение (SSL) и динамическое денойсинг речи могут значительно улучшить точность распознавания. Эти результаты показывают, что лексические признаки могут быть не менее важны, чем паралингвистические, в задаче распознавания эмоций в речи. #### Значимость Наши результаты открывают новые перспективы в использовании лексических признаков для распознавания эмоций в речи. Это может быть применено в медицинских приложениях для диагностики психических расстройств, в робототехнике для улучшения интерактивных ботов, и в общении для повышения качества личных коммуникаций. Также, наша модель демонстрирует преимущества самостоятельного обучения и динамической обработки звука, что может быть применено в других сложных задачах распознавания паралингвистических признаков. #### Выводы Мы показали, что лексические признаки могут дать конкурентные и даже выше результаты, чем акустические признаки в задаче распознавания эмоций в речи. Наши результаты открывают новые возможности для дальнейшего исследования в этой области, в том числе

Annotation:

Although paralinguistic cues are often considered the primary drivers of speech emotion recognition (SER), we investigate the role of lexical content extracted from speech and show that it can achieve competitive and in some cases higher performance compared to acoustic models. On the MELD dataset, our lexical-based approach obtains a weighted F1-score (WF1) of 51.5%, compared to 49.3% for an acoustic-only pipeline with a larger parameter count. Furthermore, we analyze different self-supervised ...

ID: 2509.05634v1 eess.AS, cs.CL, cs.SD

arXiv PDF

📄 Enhancing the Robustness of Contextual ASR to Varying Biasing Information Volumes Through Purified Semantic Correlation Joint Modeling

2025-09-10

Авторы:

Yue Gu, Zhihao Du, Ying Shi, Shiliang Zhang, Qian Chen, Jiqing Han

## Контекст Улучшение точности контекстной автоматической распознавания речи (ASR) в условиях изменчивости объема бизинг-информации является актуальной задачей, так как персонализированная распознаваемая информация часто встречается в различных речевых приложениях. Однако существующие модели ASR, основанные на перекрестной аттенции, часто сталкиваются с проблемами при работе с большими бизинг-списками, что приводит к понижению качества распознавания. Эта проблема становится особенно актуальной при работе с реальными данными, где объем бизинг-информации может значительно варьироваться. Наша мотивация заключается в поиске способа улучшить стабильность и точность ASR в таких условиях. ## Метод Мы предлагаем простой, но эффективный подход, который называется Purified Semantic Correlation Joint Modeling (PSC-Joint). Он основывается на определении и вычислении трех уровней семантических корреляций между ASR-представлением и бизинг-информацией: list-level, phrase-level и token-level. Эти корреляции централизованно моделируются и их интересование выполняется для получения наиболее важной бизинг-информации. Для того чтобы уменьшить вычислительные затраты, мы также предлагаем purification mechanism, основанный на grouped-and-competitive strategy, который позволяет исключить неинформативные фразы из рассмотрения. ## Результаты Мы проводили эксперименты на двух разных датасетах: AISHELL-1 и KeSpeech. Наш PSC-Joint показал существенные улучшения в F1-мере по сравнению с базовыми моделями: до 21.34% на AISHELL-1 и 28.46% на KeSpeech. Эти результаты достигнуты при работе с бизинг-списками различной длины, что демонстрирует высокую устойчивость нашего подхода к изменениям объема бизинг-информации. ## Значимость Важность PSC-Joint заключается в своем применении в сценариях, где бизинг-информация варьируется и требует точного распознавания. Например, в системах помощников, работающих с пользовательскими списками интересов или в ситуациях, когда нужно оперативно учесть контекст. Мы считаем, что наш подход может существенно повысить качество работы таких систем, уменьшив количество ошибок и увеличив удобство использования. ## Выводы В результате наших исследований, мы показали, что PSC-Joint может эффективно справляться с проблемой изменчивости объема бизинг-информации в контекстной ASR. В следующих исследованиях мы планируем расширить применение этого подхода к другим моделям распознавания речи и изучить его взаимодействие с другими технологиями, такими как текстовое представление и динамическое настройка.

Annotation:

Recently, cross-attention-based contextual automatic speech recognition (ASR) models have made notable advancements in recognizing personalized biasing phrases. However, the effectiveness of cross-attention is affected by variations in biasing information volume, especially when the length of the biasing list increases significantly. We find that, regardless of the length of the biasing list, only a limited amount of biasing information is most relevant to a specific ASR intermediate representat...

ID: 2509.05908v1 cs.CL, cs.SD, eess.AS

arXiv PDF

📄 LibriQuote: A Speech Dataset of Fictional Character Utterances for Expressive Zero-Shot Speech Synthesis

2025-09-06

Авторы:

Gaspard Michel, Elena V. Epure, Christophe Cerisara

#### Контекст Текст-to-speech (TTS) системы достигли значительных у mejoras в создании выразительной и натуральной речи, благодаря обучению на больших корпусах речи. Однако часто неясно, насколько выразительная речь присутствует в этих больших данных. Доступные кросс-речевые хранилища, целесообразно использовать для оценки и тестирования TTS систем, но их масштаб во многом ограничен. В настоящей работе представлен корпус LibriQuote, основанный на английских аудиокнигах, который предназначен для тонкой настройки и оценки выразительных TTS систем. Он содержит 12,7 килочасов невыразительной речи и 5,3 килочасов выразительной речи, извлеченной из цитат персонажей. Каждый выразительный пример сопровождается контекстом, в котором была написана цитата, а также метками, описывающими выражение речи (например, "он говорил медленно и злостно"). Также представлен тестовый набор данных, предназначенный для оценки того, насколько хорошо системы TTS могут передавать желаемую выразительность, сохраняя звучание речи. #### Метод LibriQuote был построен из 12,7 килочасов невыразительной речи, извлеченных из аудиокниг, и 5,3 килочасов выразительной речи, содержащих цитаты персонажей. Эти выразительные примеры аннотированы словами и словосочетаниями, описывающими выражение речи. Разработанный тест позволяет оценить способность TTS систем выделять выразительность в речи, сохраняя звучание. Эксперименты проводились с помощью нескольких моделей TTS, включая те, которые были тонко настроены на LibriQuote. #### Результаты Обучение современных моделей TTS на LibriQuote улучшило ясность и выразительность произносимого текста, особенно в сравнении с невыразительными данными. Однако субъективные и объективные оценки показали, что даже рекордные модели не могут достичь той же выразительности и природности, что и грунтовные звуки. На тестовом наборе был продемонстрирован тот факт, что некоторые модели TTS не могут сохранить голос интереса или эмоции при синтезе речи. #### Значимость LibriQuote может быть использован для тонкой настройки TTS систем, особенно для тех, которые стремятся к выразительной речи. Его могут использовать разработчики и исследователи для создания более природных и выразительных моделей речи. Более выразительные модели TTS могут быть применены в различных областях, включая развлечения, литературу и интерактивные системы. #### Выводы LibriQuote является крупнейшим выразительным TTS корпусом, основанным на аудиокнигах. Исследования показали, что тонкая настройка на этот корпус может значительно улучшить выразительность генерируемой речи. Дальнейшие исследования б

Annotation:

Text-to-speech (TTS) systems have recently achieved more expressive and natural speech synthesis by scaling to large speech datasets. However, the proportion of expressive speech in such large-scale corpora is often unclear. Besides, existing expressive speech corpora are typically smaller in scale and primarily used for benchmarking TTS systems. In this paper, we introduce the LibriQuote dataset, an English corpus derived from read audiobooks, designed for both fine-tuning and benchmarking expr...

ID: 2509.04072v1 eess.AS, cs.CL, cs.SD

arXiv PDF

1
2
4
5
6
7
8
9

Показано 51 - 60 из 83 записей