📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 HarmoniFuse: A Component-Selective and Prompt-Adaptive Framework for Multi-Task Speech Language Modeling

2025-09-25

Авторы:

Yuke Si, Runyan Yang, Yingying Gao, Junlan Feng, Chao Deng, Shilei Zhang

#### Контекст Одной из основных тенденций в развитии искусственного интеллекта является развитие универсальных языковых моделей, которые могут обрабатывать различные типы задач в рамках одной архитектуры. Это относится и к специальным моделям, таким как универсальные языковые модели для речи (Speech Language Models, SLM). Однако задачи, такие как автоматическое распознавание речи (ASR) и распознавание эмоций в речи (Speech Emotion Recognition, SER), имеют различные специфики. ASR стремится извлечь значимую информацию из речи, концентрируясь на языковом содержании, в то время как SER включает в себя анализ параллингвистических сигналов, таких как гармония и эмоциональный тон. Эти различия порождают проблемы в традиционных моделях, особенно при ограниченных объемах данных. Наша модель HarmoniFuse была разработана для решения этих проблем, ориентируясь на подход к совместной обработке различных задач распознавания речи. #### Метод HarmoniFuse представляет собой современный подход к решению проблемы одновременной обработки различных задач распознавания речи, основанный на компонентном селективе и умении адаптироваться к предметной области. Основные компоненты архитектуры HarmoniFuse: 1. **Gated Speech Encoder** – это модуль, отвечающий за выделение и фильтрацию значимых акустических признаков, относящихся к конкретной задаче. Он способен отдельно обрабатывать признаки, необходимые для ASR и SER. 2. **Prompt-Adaptive Dynamic Fusion Module** – это модуль, который анализирует характеристики задачи и динамически комбинирует преобразовательные слои, чтобы создать оптимальную структуру модели для каждой задачи. 3. **Batch-Interleaved Training Strategy** – это стратегия тренировки, позволяющая использовать разные данные для ASR и SER, не требуя их слияния или объединения в рамках обучения. #### Результаты Мы провели эксперименты с различными данными, в том числе датасетом LibriSpeech и IEMOCAP, чтобы проверить эффективность HarmoniFuse. Наша модель показала значительное улучшение как в задачах распознавания речи (ASR), так и в задачах распознавания эмоций в речи (SER). Эти результаты были достигнуты благодаря тому, что HarmoniFuse может эффективно сочетать необходимые для каждой задачи признаки, уменьшая влияние межзадачных интерференций и максимизируя использованные ресурсы. #### Значимость HarmoniFuse представляет собой значительный шаг в области мультизадачных моделей для распознавания речи. Он имеет круглосуточное применение в различных сферах, включая здравоохранение, обслуживание клиентов, анализ эмоций в речи и другие. Его основные преимущества заключаются в улучшении точности распознавания, эффективном использовании ресурсов и поддержке различных задач в рамках одной модели. Бу

Annotation:

Recent advances in large language models have facilitated the development of unified speech language models (SLMs) capable of supporting multiple speech tasks within a shared architecture. However, tasks such as automatic speech recognition (ASR) and speech emotion recognition (SER) rely on distinct types of information: ASR primarily depends on linguistic content, whereas SER requires the integration of both linguistic and paralinguistic cues. Existing multitask SLMs typically adopt naive param...

ID: 2509.18570v1 eess.AS, cs.CL, cs.SD

arXiv PDF

📄 Teaching Audio Models to Reason: A Unified Framework for Source- and Layer-wise Distillation

2025-09-25

Авторы:

Runyan Yang, Yuke Si, Yingying Gao, Junlan Feng, Chao Deng, Shilei Zhang

## Контекст Значительные успехи в области моделей звука, таких как распознавание речи (ASR) и распознавание эмоций, были достигнуты благодаря развитию больших звуковых моделей. Однако эти модели часто сталкиваются с проблемами при выполнении задач, требующих сложного рассуждения. Одним из основных ограничений является модальный разрыв между звуковыми и текстовыми моделями, что приводит к неэффективности в передаче логических и рассужденных знаний. Более того, отсутствие структурированной получаемой накачки делает сложной задачу улучшения возможностей модели звука в рассуждениях. Мы предлагаем рамку для знаний, позволяющую передать знания с текстовых моделей на звуковые модели, обеспечив при этом сохранение их акустических способностей. ## Метод Мы предлагаем метод, объединяющий два ключевых аспекта: **source-wise distillation** и **layer-wise distillation**. **Source-wise distillation** интегрирует обучение с учителем на тексте и акустическом учителе, чтобы предоставить моделей звука полноту модальных сигналов. **Layer-wise distillation** направляет знания с учителя на соответствующие слои в модели звука, чтобы оптимизировать эффективность передачи сигналов. Эта двухмерная стратегия позволяет тщательно контролировать процесс передачи знаний, позволяя модели звука соединить символические рассуждения с акустическими сигналами. ## Результаты Мы провели эксперименты на стандартных данных, подтвердив выигрыш в передаче знаний с текстовых моделей на модели звука в задачах, таких как рассуждение по тексту и распознавание эмоций. Наши эксперименты показали, что наш метод позволяет модели звука развивать логические способности, сохранив акустические способности, что демонстрирует эффективность нашего подхода в передаче знаний в моделях звука. ## Значимость Предлагаемая рамка может использоваться в различных областях, таких как звуковое распознавание, рассуждение по тексту и распознавание эмоций. Наш подход улучшает эффективность моделей звука, позволяя им выполнять сложные задачи сложного рассуждения. Это имеет потенциал для расширения возможностей моделей звука в различных приложениях, таких как медицинские приложения, обнаружение эмоций и живое переключение между символическими и акустическими моделями. ## Выводы Мы представили рамку для знаний, позволяющую передать знания с текстовых моделей на модели звука, обеспечивая эффективность передачи знаний и сохранение акустических способностей. Этот метод демонстрирует улучшение возможностей моделей звука в сложных задачах рассуждения, и мы видим возможности для его развития и применения в будущих иссле

Annotation:

While large audio language models excel at tasks like ASR and emotion recognition, they still struggle with complex reasoning due to the modality gap between audio and text as well as the lack of structured intermediate supervision. To address this, we propose a unified knowledge distillation framework to transfer reasoning capabilities from a high-capacity textual teacher model to a student audio models while preserving its acoustic competence. Our method introduces two key dimensions: source-w...

ID: 2509.18579v1 eess.AS, cs.CL, cs.SD

arXiv PDF

📄 On the Contribution of Lexical Features to Speech Emotion Recognition

2025-09-10

Авторы:

David Combei

#### Контекст Распознавание эмоций в речи (Speech Emotion Recognition, SER) является важной задачей в области звукового и текстового анализа, которая находит применение в медицине, робототехнике, телекоммуникациях и личных коммуникациях. Основной фокус в этой области, как правило, прикладывается к паралингвистическим признакам, таким как интонация, тембр и произношение. Однако меньше уделяется внимания лексическому содержанию речи, которое также может иметь значительное влияние на распознавание эмоций. Эта задача сопряжена с рядовыми вызовами, включая подготовку данных, обработку звука и эффективное использование текстовой и звуковой информации. #### Метод Мы предлагаем новую модель для распознавания эмоций в речи, основанную на лексических признаках, которая использует представления слов и фраз из речи. Модель основывается на трансформер-базе, включая технологии самостоятельного обучения (Self-Supervised Learning, SSL) для обработки звука и текста. Мы проводим ряд экспериментов, используя данные из набора MELD, а также сравниваем наши результаты с моделью, основанной только на акустических признаках. Также проводится анализ различных слоев трансформеров и эффекта динамического денойсинга аудио. #### Результаты В ходе экспериментов показано, что наша лексическая модель показывает высокую эффективность в распознавании эмоций в речи. На датасете MELD она достигла весомого F1-скора (WF1) в 51.5%, что значительно превышает результат модели, основанной только на акустичных признаках (49.3%). Мы также выявили, что самостоятельное обучение (SSL) и динамическое денойсинг речи могут значительно улучшить точность распознавания. Эти результаты показывают, что лексические признаки могут быть не менее важны, чем паралингвистические, в задаче распознавания эмоций в речи. #### Значимость Наши результаты открывают новые перспективы в использовании лексических признаков для распознавания эмоций в речи. Это может быть применено в медицинских приложениях для диагностики психических расстройств, в робототехнике для улучшения интерактивных ботов, и в общении для повышения качества личных коммуникаций. Также, наша модель демонстрирует преимущества самостоятельного обучения и динамической обработки звука, что может быть применено в других сложных задачах распознавания паралингвистических признаков. #### Выводы Мы показали, что лексические признаки могут дать конкурентные и даже выше результаты, чем акустические признаки в задаче распознавания эмоций в речи. Наши результаты открывают новые возможности для дальнейшего исследования в этой области, в том числе

Annotation:

Although paralinguistic cues are often considered the primary drivers of speech emotion recognition (SER), we investigate the role of lexical content extracted from speech and show that it can achieve competitive and in some cases higher performance compared to acoustic models. On the MELD dataset, our lexical-based approach obtains a weighted F1-score (WF1) of 51.5%, compared to 49.3% for an acoustic-only pipeline with a larger parameter count. Furthermore, we analyze different self-supervised ...

ID: 2509.05634v1 eess.AS, cs.CL, cs.SD

arXiv PDF

📄 LibriQuote: A Speech Dataset of Fictional Character Utterances for Expressive Zero-Shot Speech Synthesis

2025-09-06

Авторы:

Gaspard Michel, Elena V. Epure, Christophe Cerisara

#### Контекст Текст-to-speech (TTS) системы достигли значительных у mejoras в создании выразительной и натуральной речи, благодаря обучению на больших корпусах речи. Однако часто неясно, насколько выразительная речь присутствует в этих больших данных. Доступные кросс-речевые хранилища, целесообразно использовать для оценки и тестирования TTS систем, но их масштаб во многом ограничен. В настоящей работе представлен корпус LibriQuote, основанный на английских аудиокнигах, который предназначен для тонкой настройки и оценки выразительных TTS систем. Он содержит 12,7 килочасов невыразительной речи и 5,3 килочасов выразительной речи, извлеченной из цитат персонажей. Каждый выразительный пример сопровождается контекстом, в котором была написана цитата, а также метками, описывающими выражение речи (например, "он говорил медленно и злостно"). Также представлен тестовый набор данных, предназначенный для оценки того, насколько хорошо системы TTS могут передавать желаемую выразительность, сохраняя звучание речи. #### Метод LibriQuote был построен из 12,7 килочасов невыразительной речи, извлеченных из аудиокниг, и 5,3 килочасов выразительной речи, содержащих цитаты персонажей. Эти выразительные примеры аннотированы словами и словосочетаниями, описывающими выражение речи. Разработанный тест позволяет оценить способность TTS систем выделять выразительность в речи, сохраняя звучание. Эксперименты проводились с помощью нескольких моделей TTS, включая те, которые были тонко настроены на LibriQuote. #### Результаты Обучение современных моделей TTS на LibriQuote улучшило ясность и выразительность произносимого текста, особенно в сравнении с невыразительными данными. Однако субъективные и объективные оценки показали, что даже рекордные модели не могут достичь той же выразительности и природности, что и грунтовные звуки. На тестовом наборе был продемонстрирован тот факт, что некоторые модели TTS не могут сохранить голос интереса или эмоции при синтезе речи. #### Значимость LibriQuote может быть использован для тонкой настройки TTS систем, особенно для тех, которые стремятся к выразительной речи. Его могут использовать разработчики и исследователи для создания более природных и выразительных моделей речи. Более выразительные модели TTS могут быть применены в различных областях, включая развлечения, литературу и интерактивные системы. #### Выводы LibriQuote является крупнейшим выразительным TTS корпусом, основанным на аудиокнигах. Исследования показали, что тонкая настройка на этот корпус может значительно улучшить выразительность генерируемой речи. Дальнейшие исследования б

Annotation:

Text-to-speech (TTS) systems have recently achieved more expressive and natural speech synthesis by scaling to large speech datasets. However, the proportion of expressive speech in such large-scale corpora is often unclear. Besides, existing expressive speech corpora are typically smaller in scale and primarily used for benchmarking TTS systems. In this paper, we introduce the LibriQuote dataset, an English corpus derived from read audiobooks, designed for both fine-tuning and benchmarking expr...

ID: 2509.04072v1 eess.AS, cs.CL, cs.SD

arXiv PDF

📄 Unifying Diarization, Separation, and ASR with Multi-Speaker Encoder

2025-08-30

Авторы:

Muhammad Shakeel, Yui Sudo, Yifan Peng, Chyi-Jiunn Lin, Shinji Watanabe

## Контекст Многоголосая диаризация, разделение речи и распознавание речи (ASR) являются ключевыми задачами в области обработки речи. Однако существующие подходы обрабатывают эти задачи по отдельности, часто применяя различные архитектуры и оптимизируя под каждую задачу. Это приводит к неэффективному использованию ресурсов и трудностям в обработке намного многоголосых данных. Мотивацией для этого исследования является развитие универсальной архитектуры, которая могла бы сгенерировать общие представления для всех этих задач, включая диаризацию, разделение и распознавание речи. Такой подход может не только упростить процесс обучения, но и повысить точность решения задач. ## Метод Многоголоский энкодер (UME) представляет собой сеть, которая объединяет задачи диаризации, разделения речи и ASR в единую структуру. Основной идеей является создание общего представления речи, используя несколько уровней скрытых слоев энкодера. Для эффективного слияния информации из разных слоев вводится метод разделения на мульти-спикер (RWSE), который учитывает различия в семантических уровнях. Эта архитектура обеспечивает более точную обработку, синхронизируя различные задачи и улучшая их взаимодействие. ## Результаты Для оценки UME были проведены эксперименты на LibriMix-сети, включающих Libri2Mix и Libri3Mix. Результаты показали, что UME достигает очень низких диаризационных ошибок (Diarization Error Rate, DER) — 1.37% для Libri2Mix и 2.29% для Libri3Mix. Это значительно превосходит результаты подходов, оптимизированных по отдельности для каждой задачи. Кроме того, UME демонстрирует высокую точность в распознавании речи, даже при наличии нескольких участников. ## Значимость Данный подход имеет широкие практические применения, включая системы обработки речи в звонках, конференциях и дистанционных собраниях. Он позволяет значительно упростить процесс обучения и использования для разных задач, сократив время и ресурсы. Улучшенная точность и общая эффективность UME делают его привлекательным для реальных приложений в условиях многоголосного разговора. ## Выводы Результаты показывают, что UME является эффективной архитектурой для решения многоголоской диаризации, разделения речи и ASR. Он устанавливает новые стандарты в точности на многоголосых данных и демонстрирует потенциал для улучшения многозадачных подходов в области обработки речи. Будущие исследования будут ориентированы на расширение UME для других задач и улучшение его реализации в реальных системах.

Annotation:

This paper presents a unified multi-speaker encoder (UME), a novel architecture that jointly learns representations for speaker diarization (SD), speech separation (SS), and multi-speaker automatic speech recognition (ASR) tasks using a shared speech foundational encoder. We leverage the hidden representations from multiple layers of UME as a residual weighted-sum encoding (RWSE) to effectively use information from different semantic levels, contributing to bottom-up alignment between tasks. Thi...

ID: 2508.20474v1 eess.AS, cs.CL, cs.SD

arXiv PDF

📄 Expressive Speech Retrieval using Natural Language Descriptions of Speaking Style

2025-08-19

Авторы:

Wonjune Kang, Deb Roy

## Контекст Существует устойчивая тенденция в развитии звукового поиска, направленная на создание моделей, которые могут выполнять поиск звуковых фрагментов по текстовым описаниям. Однако поисковые запросы, как правило, ограничиваются описанием содержимого речи, не учитывая стиль ее воспроизведения. Это привело к отсутствию методов, работающих с изменениями в стиле речи, таких как эмоциональные оттенки, скорость, тональность и другие экспрессивные особенности. Мотивация для этого исследования заключается в развитии моделей, которые могут выполнять поиск речи не только по содержимому, но и по стилю ее воплощения. Это открывает новые возможности для звукового поиска, в том числе для поиска речи по эмоциональным описаниям, стилям и другим атрибутам. ## Метод Мы предлагаем фреймворк, объединяющий текстовые описания стиля речи с ее акустическими признаками в единое пространство. Учитывая то, что текст описания и акустические признаки речи являются разными типами данных, мы используем модели генеративного представления, которые могут преобразовывать эти данные в пространство, где они могут быть эффективно сравниваемы. Мы обучаем два вида моделей: модель для текста, которая превращает описания стиля речи в векторы, и модель для звука, которая превращает акустические признаки речи в векторы. Затем эти модели обучаются вместе, чтобы обеспечить эффективную и точную корреляцию между звуковыми и текстовыми данными. ## Результаты Мы проводим эксперименты на нескольких датасетах, содержащих звуковые записи речи, как описано в тексте. Наши модели обучены на 22 различных эмоциональных и стилистических атрибутах. Мы оцениваем их по точности поиска, используя критерий Recall@k. Наши результаты показывают, что наши модели способны выполнять поиск речи по текстовым описаниям с высокой точностью, особенно когда используются богатые текстовые описания. Мы также проводим серию анализов, включая эффективность различных моделей генерации текста, а также сравниваем результаты с различными модификациями наших моделей. ## Значимость Наша работа может быть применена в различных областях, включая развитие интеллектуальных систем, ориентированных на звуковый поиск, а также в области моделирования и анализа речи. Этот подход может быть полезен для создания систем, которые могут понимать и идентифицировать эмоциональный тон речи, диалект и другие стилистические атрибуты. В дополнение, наша работа демонстрирует потенциал для улучшения точности в поисковых системах, которые используют естественный язык для выражения потребностей пользователей. ## Выводы Мы представляем но

Annotation:

We introduce the task of expressive speech retrieval, where the goal is to retrieve speech utterances spoken in a given style based on a natural language description of that style. While prior work has primarily focused on performing speech retrieval based on what was said in an utterance, we aim to do so based on how something was said. We train speech and text encoders to embed speech and text descriptions of speaking styles into a joint latent space, which enables using free-form text prompts...

ID: 2508.11187v1 eess.AS, cs.CL, cs.SD

arXiv PDF

📄 NanoCodec: Towards High-Quality Ultra Fast Speech LLM Inference

2025-08-12

Авторы:

Edresson Casanova, Paarth Neekhara, Ryan Langman, Shehzeen Hussain, Subhankar Ghosh, Xuesong Yang, Ante Jukić, Jason Li, Boris Ginsburg

#### Контекст Large Language Models (LLMs) показали свою эффективность в обработке аудиоданных с помощью аудиокодеков, которые дискретизируют аудио в токены. Это позволяет применять техники языковых моделей к слову. Однако, существующие кодеки часто работают с высокими разрешениями (frame rate), что приводит к медленному обучению и выполнению моделей, особенно для систем autoregressive. Чтобы улучшить эффективность, становится все более актуальным развитие низкоразрешающих кодеков, которые уменьшают число операций авторегрессии, необходимых для создания одного секунды звука. В данной работе мы проводим анализ влияния разрешения, битрейта и каузальности на качество кодекса, чтобы привести в мир новую модель NanoCodec, которая обеспечивает высокое качество сжатия при том же frame rate (12.5 FPS). #### Метод Мы использовали широкий набор аудиосемплов для исследования влияния различных параметров кодеков на реконструкцию. Методы включали анализ битрейта, разрешения и структуры кодека. Наши эксперименты включали анализ качества реконструкции с помощью метрик, таких как Signal-to-Noise Ratio (SNR) и Perceptual Evaluation of Speech Quality (PESQ). Мы также использовали авторегрессионные модели для оценки качества запросов и реагирования на слова. Методы были оптимизированы с целью минимизации размера и времени обработки звука, при этом сохранив высокое качество реконструкции. #### Результаты Мы провели апробацию различных кодеков, включая NanoCodec, в условиях разных frame rate, bitrate и каузальности. Результаты показали, что NanoCodec демонстрирует высокое качество реконструкции при frame rate 12.5 FPS с битрейтом, сопоставимым с современными кодеками. Он также показал лучшие результаты в PESQ и SNR по сравнению с другими кодеками в низкоразрешающих условиях. Эти результаты были достигнуты благодаря специально разработанной архитектуре, которая оптимизирует сжатие без потерь существующих полезных данных. #### Значимость Наше исследование показывает, что NanoCodec может быть применено в различных областях, включая тренировку и интерпретацию Speech LLMs. Одним из основных преимуществ является уменьшение времени обучения и выполнения моделей, что может привести к меньшим затратам на ресурсы и ускорению разработки. Это также может быть критично для приложений, требующих реального времени, таких как автоматическая синтезированная речь и аудиозахват. NanoCodec также может быть применен в области компрессии аудиоданных для эффективной передачи и хранения. #### Выводы Мы привносим NanoCodec в качестве нового нормативного кодека для высокого качества и эффективной обработки речи. Наши находки показывают, что NanoCodec может улучшить производительность Speech LLMs, особенно в ситуа

Annotation:

Large Language Models (LLMs) have significantly advanced audio processing by leveraging audio codecs to discretize audio into tokens, enabling the application of language modeling techniques to speech data. However, existing audio codecs often operate at high frame rates, leading to slow training and inference, particularly for autoregressive models. To address this, there is growing interest in low frame-rate audio codecs, which reduce the number of autoregressive steps required to generate one...

ID: 2508.05835v1 eess.AS, cs.CL, cs.SD

arXiv PDF

📄 Multilingual Source Tracing of Speech Deepfakes: A First Benchmark

2025-08-09

Авторы:

Xi Xuan, Yang Xiao, Rohan Kumar Das, Tomi Kinnunen

**Резюме** В последнее время генерируемые с помощью AI звуковые фильмы (deepfake) стали все более простыми в создании, даже при небольшом объеме входных данных. Это делает возможным создание наукоедержанных фальшивых аудиозаписей, которые могут подвергнуться злоупотреблению. До сих пор большая часть исследований была направлена на обнаружение таких фальшивых звуков, но менее внимание уделено исследованию способа определения модели генерации, которой было сделано это. В настоящей работе представлен первый бенчмарк для многоязычного анализа источника генерации deepfake-звуков. Мы исследовали модели DSP и SSL, подробно рассматривали влияние оптимизации SSL-моделей на язык на кросс-язычную обнаруживаемость. Наши результаты дают подробное видение проблемы определения модели генерации в условиях различного языка тренировочных и реальных процессов. Данные, протокол и код доступны на GitHub.

Annotation:

Recent progress in generative AI has made it increasingly easy to create natural-sounding deepfake speech from just a few seconds of audio. While these tools support helpful applications, they also raise serious concerns by making it possible to generate convincing fake speech in many languages. Current research has largely focused on detecting fake speech, but little attention has been given to tracing the source models used to generate it. This paper introduces the first benchmark for multilin...

ID: 2508.04143v1 eess.AS, cs.CL, cs.SD

arXiv PDF

Показано 11 - 18 из 18 записей