📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня

📄 MaskVCT: Masked Voice Codec Transformer for Zero-Shot Voice Conversion With Increased Controllability via Multiple Guidances

2025-09-24

Авторы:

Junhyeok Lee, Helin Wang, Yaohan Guan, Thomas Thebaud, Laureano Moro-Velazquez, Jesús Villalba, Najim Dehak

В статье предлагается MaskVCT — новая модель zero-shot voice conversion (VC), которая обеспечивает значительный улучшенный контроль в факторах голосовой конвертации. Модель использует классификатор-бесплатные guidances (CFGs) для управления различными аспектами голоса, включая идентичность речи, языковые содержимое и просодические свойства. Это позволяет MaskVCT не только достичь высокой точности в целевой идентичности и акценте, но и улучшить интеллектуальность и соблюдение просодических факторов. Благодаря интеграции нескольких условий в одной модели, MaskVCT предлагает более гибкую модель управления, чем предыдущие решения. Эксперименты показали, что модель MaskVCT достигает наилучших результатов в идентичности речи и акцента, а также соперничает с существующими моделями по критериям ошибок слов и символов. Это демонстрирует ее эффективность в решении проблем голосового преобразования.

Annotation:

We introduce MaskVCT, a zero-shot voice conversion (VC) model that offers multi-factor controllability through multiple classifier-free guidances (CFGs). While previous VC models rely on a fixed conditioning scheme, MaskVCT integrates diverse conditions in a single model. To further enhance robustness and control, the model can leverage continuous or quantized linguistic features to enhance intellgibility and speaker similarity, and can use or omit pitch contour to control prosody. These choices...

ID: 2509.17143v1 eess.AS, cs.AI

arXiv PDF

📄 SongPrep: A Preprocessing Framework and End-to-end Model for Full-song Structure Parsing and Lyrics Transcription

2025-09-24

Авторы:

Wei Tan, Shun Lei, Huaicheng Zhang, Guangzheng Li, Yixuan Zhang, Hangting Chen, Jianwei Yu, Rongzhi Gu, Dong Yu

## Контекст Искусственно генерируемое содержимое (AIGC) является одной из наиболее активных областей исследований в машинном обучении. Одним из востребованных направлений в AIGC является генерация музыки, в том числе и треков с песнями. Несмотря на то, что доступно многочисленных музыкальных композиций, эффективное её подготовка для обучения моделей остается значительной проблемой. Обработка треков в музыкальных носителях часто требует тщательного ручного подбора меток, что является дорогостоящим и времязатратным процессом. Данные сложности подчеркивают необходимость разработки автоматизированных средств для подготовки данных, которые могли бы упростить процесс подготовки и повысить качество тренировочных данных. Мы предлагаем SongPrep, автоматизированную парсер-фреймворк для обработки и подготовки данных с песнями, который упрощает процесс подготовки данных, предоставляя их в удобном для обучения виде. ## Метод SongPrep представляет собой фреймворк, который включает в себя несколько ключевых модулей: источником отделения, анализом структуры и распознаванием текста. Для источника отделения используется U-Net с основной архитектурой на основе конволюционных сетей. Для распознавания структуры и текста используется seq2seq модель, основанная на BERT, которая значительно повышает точность распознавания. Кроме того, для обеспечения детального анализа текста и получения точных позиционных данных, в SongPrepE2E используется pretrained BERT, который обеспечивает лучшую понимание контекста и точность в локализации слов. Модель также включает в себя архитектуру, которая позволяет ей обрабатывать информацию с целой композиции, что улучшает общую точность локализации и понимания текста. ## Результаты Мы проверили SongPrep на двух этапах: на этапе предобработки данных и на этапе обучения моделей генерации песен. Для подтверждения эффективности SongPrep, мы сравнили его с другими методами подготовки данных в сценариях, включая тестирование различных моделей генерации. Основным показателем успеха является точность распознавания текста и структуры песни. В результате, SongPrep показал существенное улучшение в точности распознавания и уменьшил Diarization Error Rate (DER) и Word Error Rate (WER) на 15% в сравнении с другими методами. Эксперименты показали, что SongPrepE2E может обеспечить более точное локализацию текста и соблюдение структуры песни, что существенно повышает качество генерируемых песен. ## Значимость SongPrep может применяться в различных сценариях, включая генерацию песен, подготовку данных для генеративных моделей, а также в области поиска и анализа музыкальных композиций. О

Annotation:

Artificial Intelligence Generated Content (AIGC) is currently a popular research area. Among its various branches, song generation has attracted growing interest. Despite the abundance of available songs, effective data preparation remains a significant challenge. Converting these songs into training-ready datasets typically requires extensive manual labeling, which is both time consuming and costly. To address this issue, we propose SongPrep, an automated preprocessing pipeline designed specifi...

ID: 2509.17404v1 eess.AS, cs.AI, cs.SD

arXiv PDF

📄 Listening, Imagining & Refining: A Heuristic Optimized ASR Correction Framework with LLMs

2025-09-23

Авторы:

Yutong Liu, Ziyue Zhang, Cheng Huang, Yongbin Yu, Xiangxiang Wang, Yuqing Cai, Nyima Tashi

## Контекст Automatic Speech Recognition (ASR) системы, несмотря на свои достижения, остаются чувствительными к ошибкам, которые могут значительно повлиять на качество работы в различных приложениях. Особенно это важно для языков с богатым акцентом, где ошибки могут вызвать не только недопонимание, но и ухудшение пользовательского опыта. Это проблема становится критичной в сферах, таких как медицина, право и поисковые системы, где верность текста критична. Мы предлагаем LIR-ASR, новый фреймворк, который использует гуруитские приемы для улучшения ASR-систем. ## Метод LIR-ASR основывается на стратегии "Listening-Imagining-Refining" (слушание, воображение, усовершенствование). Он использует генеративные модели типа Large Language Models (LLMs) для генерирования фонетических вариантов слов, потом сопоставляет их с контекстом и выполняет глубокую рефинированию. Для предотвращения застревания в локальных оптимумах во время обучения, мы внедрили группу графов и состояний, основанных на Finite State Machine (FSM). Это позволяет гарантировать, что каждое слово будет исправлено в рамках приемлемых шаблонов. Особенностью метода является использование правил семантической целостности, чтобы сохранить значение и контекст слов. ## Результаты Мы проводили эксперименты на двух языках: английском и китайском. ASR-системы с использованием LIR-ASR показали существенные улучшения сравнительно с базовыми моделями. На тестовых данных, в том числе текстах из медицины и юриспруденции, LIR-ASR уменьшил CER/WER на 1,5 процентных единиц. Эти результаты подтверждают эффективность LIR-ASR в уменьшении ошибок ASR и его потенциал в приложениях, требующих высокой точности. ## Значимость LIR-ASR может применяться в многих сферах, где нужна сильная точность ASR. Он показал себя в сферах, где важность точности несомненна: медицинские отчеты, юридические документы, возврату речевых помощников. Основное преимущество LIR-ASR заключается в его гибкости и точности. Будущие исследования будут уделять внимание улучшению модели для широкого спектма говорений и языков, включая те, где трудности с акцентом наиболее выражены. ## Выводы LIR-ASR достигает существенных улучшений в точности ASR и уменьшает CER/WER на значительные процентные единицы. Этот фреймворк может быть широко применен для улучшения работы ASR в критичных приложениях. Дальнейшие исследования будут сфокусированы на улучшении LIR-ASR для новых языков и акцентов, чтобы обеспечить еще более широкую эффективность.

Annotation:

Automatic Speech Recognition (ASR) systems remain prone to errors that affect downstream applications. In this paper, we propose LIR-ASR, a heuristic optimized iterative correction framework using LLMs, inspired by human auditory perception. LIR-ASR applies a "Listening-Imagining-Refining" strategy, generating phonetic variants and refining them in context. A heuristic optimization with finite state machine (FSM) is introduced to prevent the correction process from being trapped in local optima ...

ID: 2509.15095v2 eess.AS, cs.AI

arXiv PDF

📄 Mitigating Intra-Speaker Variability in Diarization with Style-Controllable Speech Augmentation

2025-09-20

Авторы:

Miseul Kim, Soo Jin Park, Kyungguen Byun, Hyeon-Kyeong Shin, Sunkuk Moon, Shuhua Zhang, Erik Visser

## Контекст Speaker diarization — это процесс определения участников речи в аудиозаписи. Однако она сталкивается с значительными трудностями при работе с высокой внутриговорника (intra-speaker) переменностью. Это включает в себя изменения эмоционального тона, здравоохранения и других стилевых элементов речи. Такие переменности могут привести к ошибкам в классификации, когда один и тот же говорящий может быть неправильно считан за разных людей. Мы предлагаем стилястическую модель управляемого генерирования речи, которая может генерировать речь в различных стилях, но при этом сохранять идентичность речи. Наша модель может уменьшить ошибки в диаризации, используя аугментацию речи на основе фонетической и стилистической разнообразности. ## Метод Мы предлагаем стилястическую модель управляемого генерирования речи, которая может преобразовывать речь в различных стилях. Модель принимает диаризованные фрагменты с помощью стандартного диаризатора и потом генерирует звуковые фрагменты, которые отражают различные стили. Мы используем скрытую репрезентацию в аудиоинформации для создания новых фрагментов с различными стилями, но сохраняя идентичность речи. Эта модель тренируется с помощью кросс-энтропийной функции потерь для стилистического метода. ## Результаты Мы проверили модель на двух датасетах: эмоциональной речи и AMI. Мы сравнили результаты с помощью стандартного метода диаризации. На датасете эмоциональной речи, мы получили реduction эррора на 49%, а на датасете AMI — на 35%. Эти результаты показывают, что наш метод эффективно компенсирует внутриговорника переменность и повышает точность диаризации. ## Значимость Наш метод может быть использован в различных сферах, таких как анализ речи, легальная идентификация, анализ эмоций и другие приложения. Его основным преимуществом является уменьшение ошибок в диаризации, которые могут быть вызваны переменностью речи. Это может повысить точность в распознавании речи и улучшить использование данных речи в различных приложениях. ## Выводы Мы предложили стилястическую модель управляемого генерирования речи, которая может уменьшить ошибки в диаризации, связанные с внутриговорника переменностью. Мы проверили нашу модель на двух разных датасетах, показав её эффективность. Мы планируем провести более подробные эксперименты и расширить область применения этой модели.

Annotation:

Speaker diarization systems often struggle with high intrinsic intra-speaker variability, such as shifts in emotion, health, or content. This can cause segments from the same speaker to be misclassified as different individuals, for example, when one raises their voice or speaks faster during conversation. To address this, we propose a style-controllable speech generation model that augments speech across diverse styles while preserving the target speaker's identity. The proposed system starts w...

ID: 2509.14632v1 eess.AS, cs.AI, eess.SP

arXiv PDF

📄 Discrete optimal transport is a strong audio adversarial attack

2025-09-20

Авторы:

Anton Selitskiy, Akib Shahriyar, Jishnuraj Prakasan

## Контекст Область аудио-адверсарских атак на защитные механизмы звукового спуфинга привлекает внимание в связи с повышением риска атак на системы аутентификации. Несмотря на успех текущих методов, остается трудность в создании эффективных всё-против-всего (black-box) атак, которые могут использоваться для проверки устойчивости систем к реальным угрозам. Многие атаки ограничены в использовании, например, требуют доступа к модели или имеют неэффективность в переносимости между данными. Целью данной работы является раскрытие потенциала дискретного оптимального транспорта (DOT) в качестве мощного инструмента атаки, который не требует доступа к модели и обладает высокой переносимостью. ## Метод Работа основывается на идее адаптации дискретного оптимального транспорта (DOT) для выравнивания распределений аудио-фреймов. Метод работает в трех этапах: 1. **Извлечение Embeddings:** Frame-level WavLM embeddings генерируемой аудио-секвенции извлекаются с помощью модели WavLM. 2. **Aligning Distributions:** Embeddings подвергаются оптимальному транспорту с использованием entropic OT, чтобы изменить распределение на большой unpaired bona fide pool. 3. **Decoding:** Результаты обрабатываются через neural vocoder для создания звукового сигнала. Эта архитектура позволяет создавать аудио-секвенции, которые звучат аутентично, одновременно соответствуя распределению звуков бона-фиде. Атака остается ориентированной на black-box подход и не требует внутренних данных или моделей. ## Результаты Наборы данных ASVspoof2019 и ASVspoof5 были использованы для оценки DOT в сравнении с AASIST baseline. Атака DOT показала высокую стабильность и высокую equal error rate (EER) на всемирных данных. Важным открытием было то, что DOT остается эффективным даже после fine-tuning защитных механизмов, что демонстрирует его передовое значение в сравнении с другими атаками. Анализ ablation показал, что переносимость и эффективность атаки очень зависят от корректного выбора neural vocoder, но в целом DOT показывает высокую гибкость. ## Значимость Область применения DOT распространяется на аудио-системы безопасности, включая защиту от спуфинга, аутентификации, а также проверку целостности звуковых данных. Этот подход демонстрирует свой преимущество в том, что он может эффективно атаковать не только локальные модели, но и глобально развернутые системы без доступа к их внутренним данным. Также, DOT показывает потенциал в создании новых методов тестирования аудио-систем, улучшая их обнаруживаемость в реальных угрозах. ## Выводы Результаты показывают, что DOT создает новый, эффективный взгляд на аудио-адверсарские атаки, использ

Annotation:

In this paper, we show that discrete optimal transport (DOT) is an effective black-box adversarial attack against modern audio anti-spoofing countermeasures (CMs). Our attack operates as a post-processing, distribution-alignment step: frame-level WavLM embeddings of generated speech are aligned to an unpaired bona fide pool via entropic OT and a top-$k$ barycentric projection, then decoded with a neural vocoder. Evaluated on ASVspoof2019 and ASVspoof5 with AASIST baselines, DOT yields consistent...

ID: 2509.14959v1 eess.AS, cs.AI

arXiv PDF

📄 Listening, Imagining \& Refining: A Heuristic Optimized ASR Correction Framework with LLMs

2025-09-20

Авторы:

Yutong Liu, Ziyue Zhang, Yongbin Yu, Xiangxiang Wang, Yuqing Cai, Nyima Tashi

## Контекст Automatic Speech Recognition (ASR) представляет собой ключевой инструмент для автоматической обработки речи в различных областях, включая распознавание речи, синтез речи и модулирование языка. Однако ASR-системы часто страдают от систематических ошибок, которые могут серьезно повлиять на качество исходящих данных и усложнить их использование в различных приложениях, таких как текстовый редактор, автоматическое переводение и синтез речи. Одним из основных забот для развития этих систем является не только повышение их точности, но и уменьшение количества ошибок в распознавании речи. Многие существующие подходы, ориентированные на корректировку ASR, либо неэффективны, либо не полностью рассматривают сложности в языковой модели. Задача текущего исследования заключается в создании нового фреймворка для корректировки ASR, который бы стал более эффективным и универсальным. ## Метод Мы предлагаем LIR-ASR — фреймворк, основанный на трех этапах: "слушание", "образное воспроизведение" и "корректировка". Эти этапы имитируют человеческое слухительство и восприятие речи, чтобы получить более точную корректировку. Во время "слушания", система использует модель языка (LLM) для генерации фонетических вариантов речи. Затем, во время "образного воспроизведения", мы используем генерируемые варианты для оптимизации контекста. На последнем этапе, "корректировке", мы применяем хитрости и логические ограничения для гарантии точности и сохранения семантической адекватности. Ключевым инструментом является хитрость, основанная на Финальной Машине (FSM), которая предотвращает привязку к местным минимумам, а также специальные правила для сохранения семантики. Эти техники позволяют LIR-ASR значительно повысить точность ASR сравнительно с базовыми моделями. ## Результаты Мы проводили эксперименты на двух языках — английском и китайском — используя различные ASR-системы и данные. Результаты показывают, что LIR-ASR существенно улучшает показатели CER (Character Error Rate) и WER (Word Error Rate), снижая их на 1,5 процентных пунктов по сравнению с базовыми моделями. Эти результаты демонстрируют, что LIR-ASR может значительно улучшить качество распознавания речи, что имеет прямое отношение к повышению качества в различных приложениях, таких как текстовый редактор, автоматическое переводение и распознавание речи в различных сценариях. ## Значимость LIR-ASR может быть применен в различных областях, таких как модулирование речи, распознавание речи для синтеза текста и автоматическое переводение. Он предоставляет более точный и универсальный подход к корректировке

Annotation:

ID: 2509.15095v1 eess.AS, cs.AI

arXiv PDF

📄 TICL: Text-Embedding KNN For Speech In-Context Learning Unlocks Speech Recognition Abilities of Large Multimodal Models

2025-09-19

Авторы:

Haolong Zheng, Yekaterina Yegorova, Mark Hasegawa-Johnson

## Контекст Speech In-Context Learning (SICL) — это процесс, в котором модели понимают и обрабатывают речь, полагаясь не только на ранее прослушанные примеры, но и на контекст, в котором происходит данное выражение. Несмотря на то, что существуют многомодальные модели, включающие в себя множество языков и акцентов, их эффективность в сложных сценариях (например, речи с акцентом, детской речи или мультилингвальной речи) остается недостаточной. Это происходит из-за недостатка в эффективном выборе контекстных примеров для обучения в контексте. Отсутствие эффективных методов для выбора этих примеров приводит к ухудшению качества распознавания речи. В настоящий момент нет элементарных средств для решения этой проблемы, что ставит под угрозу достижение высокой точности в распознавании речи. ## Метод TICL (Text-Embedding KNN for SICL) — это простая архитектура, основанная на использовании текстовых примеров для улучшения распознавания речи. Она построена на базе больших моделей мультимодального понимания, таких как LLaMA или PaLM. Работа процесса TICL состоит в следующем: для каждого нового примера речи работает процесс поиска семантически близких примеров из предварительно обученного набора данных. Эти примеры являются ключевыми для ситуации, когда необходимо понять и распознать речь в контексте. Используя эти примеры, TICL оптимизирует процесс распознавания речи без непосредственного тренировочного процесса модели. Это позволяет повысить точность распознавания речи, даже в случаях, когда примеры речи отличаются от обучающего набора (например, речь с акцентом или детской речи). ## Результаты Надёжность и эффективность метода TICL были проверены на многочисленных сложных задачах распознавания речи. Это включало в себя речь с акцентом, мультилингвальную речь и речь детей. На этих задачах TICL позволил моделям достичь результатов, лучше нулевого запуска, с помощью относительного снижения Relative Word Error Rate (WER) до 84.7%. Для подтверждения результатов проводились абляционные исследования, показавшие, что качество работы TICL не зависит от выбора конкретной модели и работает эффективно с разными типами мультимодальных моделей. Эта надёжность демонстрирует значительный потенциал TICL в области распознавания речи. ## Значимость TICL открывает новые возможности для распознавания речи в различных сложных сценариях. Он может применяться для улучшения распознавания речи в реальном времени, включая системы управления, медицинское применение и технологии обучения. За счёт того, что TICL улучшает точность распознавания речи без необходимости дополнительной моделирования, он экономит ресурсы. Это может привести к более быстрому развитию технологий ра

Annotation:

Speech foundation models have recently demonstrated the ability to perform Speech In-Context Learning (SICL). Selecting effective in-context examples is crucial for SICL performance, yet selection methodologies remain underexplored. In this work, we propose Text-Embedding KNN for SICL (TICL), a simple pipeline that uses semantic context to enhance off-the-shelf large multimodal models' speech recognition ability without fine-tuning. Across challenging automatic speech recognition tasks, includin...

ID: 2509.13395v1 eess.AS, cs.AI, cs.CL, cs.LG, cs.MM

arXiv PDF

📄 DSpAST: Disentangled Representations for Spatial Audio Reasoning with Large Language Models

2025-09-19

Авторы:

Kevin Wilkinghoff, Zheng-Hua Tan

## Контекст Одна из основных задач в обработке звука — выделять и анализировать спектральные характеристики аудиосигналов, чтобы определять типы звуковых событий, их направление и расстояние до источника. Типичным решением является использование специализированных акустических моделей, которые извлекают акустические признаки для каждой задачи по отдельности. Однако, применение таких моделей в структуре ОСНОВНОГО текста требует выделения НАПРАВЛЕНИЙ и структуризированного разделения концепций, что может привести к НАПРЯЖЕНИЮ в понимании. Важное НАПРЯЖЕНИЕ заключается в том, что большинство моделей не могут эффективно обрабатывать независимые признаки, что приводит к потерям в точности. В этой работе мы предлагаем DSpAST, модель, которая изучает разделенные представления пространственного аудио, сохраняя штатные значения только в 0.2% дополнительных параметров. ## Метод DSpAST основывается на SpatialAST, но включает в себя новую архитектуру, которая разделяет обучение на независимые подзадачи. Модель использует глубокие нейронные сети, которые обучаются с помощью алгоритмов градиентного спуска. В центре DSpAST лежит идея дисегментации: каждая подзадача имеет свой отдельный модуль, который извлекает индивидуальные признаки, такие как тип звука, направление и расстояние. Таким образом, модель избегает слияния независимых признаков и повышает точность распознавания. Дополнительно, модель использует предобученные модели, чтобы улучшить обучение и снизить время обучения. ## Результаты Для оценки DSpAST проведены эксперименты на датасете SpatialSoundQA. Мы сравнили результаты с SpatialAST и другими моделями. Результаты показали, что DSpAST превосходит SpatialAST на 15% в точности определения типа звука, а также повышает точность определения направления и расстояния на 10%. Это демонстрирует эффективность DSpAST в разделении задач и повышении общей точности. Также было проведено визуальное и аналитическое сравнение результатов, подтвердив высокую степень улучшения в сравнении с остальными моделями. ## Значимость Результаты DSpAST имеют широкие применения в области процессинга звука, в том числе в системах автоматического определения географического положения и системах реалистичного воспроизведения звука. Из-за своего высокого уровня точности и эффективности, DSpAST может быть использовано в коммерческих решениях, таких как системы видеоконференцсиалов, системы автоматического управления звуком и даже в VR/AR-приложениях. Этот подход также может способствовать развитию ИИ в сфере прогнозирования и анализа аудиосигналов. ## Выво

Annotation:

Reasoning about spatial audio with large language models requires a spatial audio encoder as an acoustic front-end to obtain audio embeddings for further processing. Such an encoder needs to capture all information required to detect the type of sound events, as well as the direction and distance of their corresponding sources. Accomplishing this with a single audio encoder is demanding as the information required for each of these tasks is mostly independent of each other. As a result, the perf...

ID: 2509.13927v1 eess.AS, cs.AI, cs.SD

arXiv PDF

📄 Length-Aware Rotary Position Embedding for Text-Speech Alignment

2025-09-17

Авторы:

Hyeongju Kim, Juheon Lee, Jinhyeok Yang, Jacob Morton

## Контекст Текстово-речевые системы (TTS) широко используются для генерации речи на основе текста в различных приложениях, таких как видеоконференции, автоматизированные системы обслуживания, интерактивные ассистенты и доступность звукового контента. Одной из ключевых задач в этих системах является текстово-речевая алигнмент (TRА), которая включает в себя корректное установление соответствия между текстом и его речевой интерпретацией. Одним из известных подходов к решению этой задачи является использование трансформеров с кросс-аттенцией. Однако, текущие модели TTS имеют проблемы с точностью TRА, особенно при работе с длинными высказываниями, где разница в длине участков текста и речи может привести к расхождениям. Необходимо разработать эффективные способы улучшить алигнмент, чтобы обеспечить высокое качество генерируемой речи при длительных высказываниях. ## Метод Мы предлагаем **Length-Aware Rotary Position Embedding (LARoPE)**, расширение Rotary Position Embedding (RoPE), которое учитывает длину участков для улучшения text-speech alignment. В отличие от RoPE, которое использует абсолютные индексы для кодирования позиций, LARoPE вычисляет относительные расстояния между позициями запроса (query) и ключа (key) с использованием length-normalized indices. Это позволяет лучше адаптироваться к изменениям в длине участков в тексте и речи. Метод основывается на трансформерной архитектуре и использует кросс-аттенционные механизмы, но с использованием LARoPE в качестве позиционных признаков. ## Результаты Мы проводили эксперименты на стандартных датасетах TTS, включая LJSpeech и LibriTTS, сравнивая LARoPE с RoPE. Эксперименты показали, что LARoPE улучшает text-speech alignment, снижает word error rate (WER) и обеспечивает более высокое качество генерируемой речи. Например, в тестах на длинных высказываниях (до 30 секунд) LARoPE показала стабильное выполнение, в то время как RoPE имела заметные расхождения. Мы также проверили устойчивость модели к изменениям в длине участков текста и речи, и LARoPE показала лучшие результаты. Был доказан состояние технологии (SOTA) по WER на zero-shot TTS benchmark. ## Значимость Результаты LARoPE демонстрируют ее применимость в TTS-системах, особенно для длинных аудио-высказываний. Это может повысить качество речи и улучшить доступность звукового контента в различных сценариях применения, таких как видеоконференции, интерактивные системы и доступность контента. LARoPE также снижает WER и обеспечивает более точный алигнмент, что может положительно сказаться на качестве речи и ее понятности. Будущие исследования могут сосредоточиться на расширении LARoPE для работы с мультимодальными данными и улучшению ее скорости и эффе

Annotation:

Many recent text-to-speech (TTS) systems are built on transformer architectures and employ cross-attention mechanisms for text-speech alignment. Within these systems, rotary position embedding (RoPE) is commonly used to encode positional information in text and speech representations. In this work, we introduce length-aware RoPE (LARoPE), a simple yet effective extension of RoPE that improves text-speech alignment. Unlike RoPE, which relies on absolute indices, LARoPE computes relative distances...

ID: 2509.11084v1 eess.AS, cs.AI, cs.CL, cs.SD

arXiv PDF

📄 Joint Learning using Mixture-of-Expert-Based Representation for Enhanced Speech Generation and Robust Emotion Recognition

2025-09-12

Авторы:

Jing-Tong Tzeng, Carlos Busso, Chi-Chun Lee

#### Контекст Speech emotion recognition (SER) является ключевым компонентом для создания эмоционально ориентированных систем связи. Однако его эффективность значительно ухудшается в условиях шума, что ограничивает применение в реальных сценариях. Хотя технологии улучшения речи (SE) могут улучшить сигнал, они часто добавляют шумы и артифакты, которые затрудняют распознавание эмоций. Одним из подходов является multi-task learning (MTL), который позволяет одновременно решать задачи SE и SER. Однако обычные модели с общим корпусом (shared-backbone) сталкиваются с проблемами, такими как зависимость градиентов (gradient interference) и конфликты представлений (representational conflicts), что снижает эффективность обучения. Наша цель — разработать эффективный мультизадачный подход, который улучшит обе задачи в условиях шума. #### Метод Мы предлагаем Sparse Mixture-of-Experts Representation Integration Technique (Sparse MERIT) — расширенный MTL-подход, который применяет фрейм-уровневую технику рутинга экспертов с помощью самостоятельно обучаемых спектро-граммных представлений. Sparse MERIT включает task-specific gating networks, которые динамически выбирают экспертов из общего пула для каждого фрейма. Эта модель эффективна, так как она адаптируется к конкретным задачам и минимизирует ненужные вычислительные ресурсы. Наша архитектура позволяет обучать модели, которые могут лучше работать в шумных условиях, сохраняя высокую точность распознавания эмоций и улучшая качество речи. #### Результаты Мы проверили Sparse MERIT на MSP-Podcast corpus, сравнив его с базовыми моделями. Наши результаты показали, что Sparse MERIT существенно превосходит базовые модели в серьезных условиях шума (например, -5 dB SNR). Он улучшил F1-macro SER на 12.0% по сравнению с SE-preprocessing baseline и на 3.4% по сравнению с MTL baseline. Для SE, Sparse MERIT увеличил SSNR на 28.2% по сравнению с SE baseline и на 20.0% по сравнению с MTL baseline. Эти результаты доказывают, что Sparse MERIT обеспечивает устойчивую и общеприменимую производительность для задач распознавания эмоций и улучшения речи в шумных средах. #### Значимость Sparse MERIT может быть применен в различных сценариях, таких как ассистенты с поддержкой речи, интерактивные системы и системы самообучения. Он обеспечивает более точное распознавание эмоций в условиях шума и повышает качество звука, уменьшая необходимые ресурсы. Наш подход может существенно повлиять на развитие эмоционально ориентированных систем, улучшив их надёжность и удобство использования в различных сферах применения. #### Выводы Мы доказали, что Sparse MERIT эффективно решает проблемы MTL в задачах распознавания эмоций и улучшения речи. Наши исследования показали, что модель обеспечивает высокую точность и устойчивость в шум

Annotation:

Speech emotion recognition (SER) plays a critical role in building emotion-aware speech systems, but its performance degrades significantly under noisy conditions. Although speech enhancement (SE) can improve robustness, it often introduces artifacts that obscure emotional cues and adds computational overhead to the pipeline. Multi-task learning (MTL) offers an alternative by jointly optimizing SE and SER tasks. However, conventional shared-backbone models frequently suffer from gradient interfe...

ID: 2509.08470v1 eess.AS, cs.AI

arXiv PDF

Показано 41 - 50 из 74 записей