📚 Саммари научных статей из arXiv

Найдено 74 результатов по запросу 'eess.AS, cs.AI' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня

📄 Beamforming-LLM: What, Where and When Did I Miss?

2025-09-10

Авторы:

Vishal Choudhari

## Контекст Многоречивые окружения представляют свои собственные вызовы для понимания и восприятия говорения. Особенно это актуально при отсутствии внимания к некоторым частям диалога. Существующие системы позволяют воспроизводить содержимое звуковых потоков, но не учитывают контекст или семантический контент. Участники таких систем часто приходятся прибегать к рутинному повторению звуков, чтобы разобраться в пропущенном контенте. Это приводит к увеличению времени, потребляемого на понимание диалога, и к ухудшению качества взаимодействия. Необходимо разработать систему, которая не только воспроизводила бы пропущенные фрагменты, но и обеспечивала бы понятное понимание и контекст с помощью наиболее актуального текстового описания. ## Метод Система Beamforming-LLM использует микрофонный массив для съемки спектральных данных, которые позволяют выделить звуковые источники в многоречивых средах. Эти звуковые потоки используются для сегментации и распознавания речи с помощью Whisper. Он транскрибирует звуковые фрагменты и вставляет их в векторную базу данных с помощью sentence encoders. Пользователь может задавать семантические запросы, например: "Что я пропустил, когда думал об другой теме?". Затем система выполняет поиск семантически похожих фрагментов и определяет, какие фрагменты были пропущены в то время, когда пользователь отвлекался. Эти фрагменты становятся доступными для повтора с помощью GPT-4o-mini, которая создает упрощенные сводки. Благодаря этому, пользователь может получить ответы в удобном текстовом формате с возможностью запускать аудио на запрос. ## Результаты В экспериментах система Beamforming-LLM была применена в сценариях многоречивых диалогов, когда пользователь отвлекается от некоторых частей диалога. Были проведены тесты на различных диалогах, и система показала высокую точность в поиске и воспроизведении пропущенных фрагментов. Опробывались различные типы звуковых баз, включая диалог между тремя людьми и сложные ситуации с многочисленными источниками звука. Результаты показали, что Beamforming-LLM не только выделяет пропущенные фрагменты, но и предоставляет понятные и контекстуально подходящие разъяснения, что улучшает понимание пользователем. ## Значимость Было проанализировано множество областей применения Beamforming-LLM. Это может быть полезно для помощи людям с нарушениями слуха или в целях облегчения труда в нормальных диалогах. Также есть возможность применять ее в корпоративных средах для помощи в суммировании митингов, а также в сфере мобильных приложений, где пользователи могут использовать систему для получения ответа на с

Annotation:

We present Beamforming-LLM, a system that enables users to semantically recall conversations they may have missed in multi-speaker environments. The system combines spatial audio capture using a microphone array with retrieval-augmented generation (RAG) to support natural language queries such as, "What did I miss when I was following the conversation on dogs?" Directional audio streams are separated using beamforming, transcribed with Whisper, and embedded into a vector database using sentence ...

ID: 2509.06221v1 eess.AS, cs.AI, cs.CL, cs.HC

arXiv PDF

📄 Integrating Spatial and Semantic Embeddings for Stereo Sound Event Localization in Videos

2025-09-10

Авторы:

Davide Berghi, Philip J. B. Jackson

## Контекст Стероидный звуковой метод локализации и детекции источника (3D SELD) — это сложная задача, которая объединяет в себе классификацию событий во временном отношении, локализацию в пространстве и оценку дистанции источника. Такая задача требует моделирования взаимосвязей между пространственными, временными и семантическими измерениями. Однако семантические аспекты часто являются наиболее сложными для моделирования в силу ограничений данных и сложности их интеграции с другими измерениями. Обычно SELD-алгоритмы полагаются на многоканальные входные данные, что ограничивает их возможность использовать богатые ресурсы больших предобученных моделей. Этот проект нацелен на решение этих проблем, предлагая новый подход к интеграции семантических и пространственных признаков для улучшения 3D SELD. ## Метод Мы предлагаем модифицированную архитектуру Conformer, называемую Cross-Modal Conformer, для эффективного ожидания входных семантических признаков. Для этого используются CLAP (Contrastive Language-Aligned Pre-training) для звуковых данных и OWL-ViT (Object-centric World Models with Vision Transformers) для визуальных данных. Эти предобученные модели генерируют семантические признаки, которые в итоге объединяются в Cross-Modal Conformer. Эта модель специально разработана для мультимодального объединения и включает в себя вспомогательные модули для разделения информации по каналам, что учитывает конкретные характеристики каждого канала. Мы также описываем процесс сбора и модификации двух больших аугментированных наборов данных: аудио-визуальных и аудио-только данных. Эти наборы были использованы для предварительного тренирования моделей, которые впоследствии включены в конечную модель для задачи 3D SELD. ## Результаты Мы проводили эксперименты на DCASE2025 Task 3 Stereo SELD Dataset, сравнивая нашу модель с базовыми системами DCASE и другими участниками. Модель Cross-Modal Conformer показала себя эффективно, достигнув второго места в треке B задачи DCASE 2025. Мы также провели абляционные эксперименты, показав, что интеграция CLAP и OWL-ViT существенно улучшает результаты по сравнению с базовой моделью и даже с моделями, использующими CLAP или OWL-ViT отдельно. ## Значимость Наш подход имеет широкие возможности применения в реальных сценариях, таких как автоматизированная система локализации звуков, робототехника, мультимедиа и системы анализа видео-аудио. Мы показали, что интеграция семантических признаков может значительно улучшить точность локализации и классификации звуков в стандартных видео, что делает нашу модель привлекательной для практического использования. Будущие исследования будут направлены на уточнение модальностных моделей и расширение воз

Annotation:

In this study, we address the multimodal task of stereo sound event localization and detection with source distance estimation (3D SELD) in regular video content. 3D SELD is a complex task that combines temporal event classification with spatial localization, requiring reasoning across spatial, temporal, and semantic dimensions. The last is arguably the most challenging to model. Traditional SELD approaches typically rely on multichannel input, limiting their capacity to benefit from large-scale...

ID: 2509.06598v1 eess.AS, cs.AI, cs.LG, eess.IV, eess.SP

arXiv PDF

📄 IS${}^3$ : Generic Impulsive--Stationary Sound Separation in Acoustic Scenes using Deep Filtering

2025-09-05

Авторы:

Berger Clémentine, Stamadiatis Paraskevas, Badeau Roland, Essid Slim

## Контекст Область рассмотрения — разработка систем анализа акустических сцен, которые могут выделять изолированные акустические события и стационарные фоновые звуки. Такие системы применяются для решения реальных задач, включая адаптивную настройку звука, убирание шумов, очистку голоса, классификацию акустических событий и даже анализ биоакустики. Однако существующие методы, такие как Harmonic--Percussive Sound Separation (HPSS) или wavelet filtering, не так эффективны при работе с сигналами акустических сцен. Требуется более специализированный подход для разделения impulsive (изолированных) и stationary (стационарных) звуков. Мотивация заключается в создании универсальной системы IS${}^3$, которая моглала бы решить эту проблему, обеспечивая универсальный и эффективный подход к акустическому разделению. ## Метод Для решения данной задачи предложена методология Deep Filtering, которая основывается на нейронных сетях. IS${}^3$ — это нейронная сеть, которая отделяет impulsive и stationary события в акустических сценах. Основной идеей является использование фильтрации, чтобы выделить акустические события, которые имеют импульсный характер (например, стоны, звуки стука), от стационарных фоновых звуков (например, шума помещения). Архитектура сети включает нейронные слои, работающие с звуковыми данными с разными частотными особенностями. Для эффективной обученности сети была разработана инновационная система подготовки данных, которая позволяет применять использованные данные в различных контекстах и условиях. ## Результаты В ходе экспериментов сравнили результаты IS${}^3$ с двумя другими подходами: Harmonic--Percussive Sound Separation и wavelet filtering. Были использованы разные акустические данные, включая синтетические и реальные сигналы. Результаты показали, что IS${}^3$ превосходит другие методы по таким критериям, как Signal-to-Distortion Ratio (SDR) и Signal-to-Interference Ratio (SIR). Например, IS${}^3$ показала значительно более высокую точность в отделении impulsive звуков от фоновых, сравниваясь с HPSS. Также работа была протестирована на нескольких сценах, включая голос и природные звуки, и показала устойчивость в различных условиях. ## Значимость Полученная система IS${}^3$ имеет большое практическое значение в различных областях. Она может применяться в адаптивном аудио-процессинге, например для компрессии или нормализации звука, в устранении шумов, в классификации акустических событий и даже в биоакустическом исследовании. Ее главное преимущество — универсальность и эффективность, которые позволяют применять ее в разных сценах. Благодаря своему новому подходу, IS${}^

Annotation:

We are interested in audio systems capable of performing a differentiated processing of stationary backgrounds and isolated acoustic events within an acoustic scene, whether for applying specific processing methods to each part or for focusing solely on one while ignoring the other. Such systems have applications in real-world scenarios, including robust adaptive audio rendering systems (e.g., EQ or compression), plosive attenuation in voice mixing, noise suppression or reduction, robust acousti...

ID: 2509.02622v1 eess.AS, cs.AI, cs.SD, eess.SP

arXiv PDF

📄 AHAMask: Reliable Task Specification for Large Audio Language Models without Instructions

2025-09-05

Авторы:

Yiwei Guo, Bohan Li, Hankun Wang, Zhihan Li, Shuai Wang, Xie Chen, Kai Yu

#### Контекст Крупные звуковые языковые модели (LALMs) расширяют текстовые модели с большим объемом текстов, добавляя универсальные возможности звукового понимания. Однако они чувствительны к инструкциям, при которых задачи, выраженные в разных формах, могут приводить к разным результатам. Эта непредсказуемость ограничивает широкое применение LALMs в реальных сценариях. Для решения этой проблемы необходима универсальная, надежная и простая в использовании система управления задачами, не требующая конкретных инструкций. #### Метод Мы предлагаем AHAMask — метод, основанный на маскировании определенных аттенционных заголовков в декодерной LALM-модели. Этот подход позволяет непосредственно активировать функции звукового понимания, не требуя специальных инструкций. Маски обучаются в составе LALM-архитектуры, сохраняя количество тренируемых параметров равным количеству аттенционных заголовков в основной модели. Это снижает влияние дополнительных параметров на модель и обеспечивает эффективность. #### Результаты Мы провели эксперименты с широким спектром звуковых задач, включая распознавание речи, синтез речи и задачи композиции. Результаты показали, что AHAMask обеспечивает сопоставимую или даже лучшую производительность по сравнению с традиционными методами, использующими инструкции. Это подтверждает возможность LALM для надежного и бесшовного управления задачами. #### Значимость AHAMask может быть использован в различных сферах, таких как распознавание речи, звуковой анализ, генерация звука и синтез речи. Он предлагает удобную альтернативу инструкциям, что уменьшает сложность использования модели в реальных задачах. Это раскрывает перспективы для более широкого применения LALMs в сценариях, где надежность и простота ключевые факторы. #### Выводы AHAMask доказывает, что LALM-модели содержат "функциональные пути", которые могут быть активированы с помощью селективного маскирования. На этой основе мы планируем рассмотреть более глубокое изучение этих путей, чтобы улучшить понимание и управление функциональностью LALM-моделей. Также мы намереваемся применить этот подход к другим задачам, включая видео- и текстовые модели.

Annotation:

Although current large audio language models (LALMs) extend text large language models (LLMs) with generic acoustic understanding abilities, they usually suffer from instruction sensitivity, where different instructions of the same intention can yield drastically different outcomes. In this work, we propose AHAMask, where we simply mask some of the attention heads in the decoder-only LLM backbone of LALMs, to trigger specific acoustic task functionalities without instructions. These masks are ef...

ID: 2509.01787v1 eess.AS, cs.AI, cs.SD

arXiv PDF

📄 Can Layer-wise SSL Features Improve Zero-Shot ASR Performance for Children's Speech?

2025-09-02

Авторы:

Abhijit Sinha, Hemant Kumar Kathania, Sudarsana Reddy Kadiri, Shrikanth Narayanan

#### Контекст Автоматическое звукоречевое распознавание (ASR) системы часто сталкиваются с трудностями при обработке речи детей, что связано с особыми акустическими и лексическими особенностями этого типа речи. Хотя недавние достижения в области самостоятельного обучения (SSL) существенно улучшили транскрипцию речи взрослых, проблема транскрипции речи детей остается актуальной. Целью данного исследования является оценка потенциала layer-wise самостоятельно самообучающихся моделей (Wav2Vec2, HuBERT, Data2Vec и WavLM) для улучшения ASR-систем, предназначенных для транскрибирования речи детей в zero-shot сценарии. #### Метод Для тестирования потенциала SSL-моделей были извлечены layer-wise features, которые последуют интегрированы в DNN-систему ASR с использованием Kaldi toolkit. Для обучения была использована аудио-корпус WSJCAM0, а для тестирования — PFSTAR. Эксперименты проводились с использованием разных моделей SSL и выделения layer-wise features. Также проводилась анализ по группам возраста, чтобы оценить как общую эффективность, так и то, как модель себя вестит на данных речи ребенка разных возрастов. #### Результаты Изыскания показали, что Layer 22 модели Wav2Vec2 дает низкий Word Error Rate (WER) в 5.15%, что составляет 51.64% относительного улучшения по сравнению с прямым zero-shot декодированием с использованием Wav2Vec2 (WER в 10.65%). Данные по возрастным группам указали на то, что модель постоянно улучшает свою эффективность с ростом возраста, при этом даже на молодших группах возраста были заметные улучшения. Эксперименты на CMU Kids дали похожие итоги, подтвердив генерализуемость предложенного подхода. #### Значимость Результаты этих исследований могут быть применены в разработке более точных ASR-систем для детей, что будет полезно в области образования, здравоохранения и интерактивных технологий. Преимуществоми этого подхода является уменьшение WER на zero-shot сценариях и улучшение универсальности моделей для различных возрастных групп детей. В будущем, можно рассмотреть интеграцию данных из других SSL-моделей и расширение подхода на другие типы речи. #### Выводы Исследование показало, что layer-wise features из SSL моделей могут значительно сократить WER в zero-shot ASR системах для речи детей. Модель Wav2Vec2, особенно Layer 22, дала лучшие результаты. Этот подход может быть применен для решения проблем с транскрибированием речи детей, имея потенциал для расширения и исследования других моделей и наборов данных.

Annotation:

Automatic Speech Recognition (ASR) systems often struggle to accurately process children's speech due to its distinct and highly variable acoustic and linguistic characteristics. While recent advancements in self-supervised learning (SSL) models have greatly enhanced the transcription of adult speech, accurately transcribing children's speech remains a significant challenge. This study investigates the effectiveness of layer-wise features extracted from state-of-the-art SSL pre-trained models - ...

ID: 2508.21225v1 eess.AS, cs.AI, cs.LG, cs.SD, eess.SP

arXiv PDF

📄 Zero-Shot KWS for Children's Speech using Layer-Wise Features from SSL Models

2025-09-02

Авторы:

Subham Kutum, Abhijit Sinha, Hemant Kumar Kathania, Sudarsana Reddy Kadiri, Mahesh Chandra Govil

## Контекст Ключевое слово recognition (KWS) широко используется в различных системах, включая персональные помощников и умные дома. Однако существуют уникальные проблемы при распознавании речи детей из-за их характерных акустических и лингвистических характеристик. Эти проблемы часто приводят к повышенным ошибкам в сравнении с распознаванием речи взрослых. До сих пор было предложено множество методов для улучшения KWS в разговорах взрослых, но для распознавания речи детей эти подходы не всегда подходят. Данная работа предлагает использовать новый подход к KWS для детей, основанный на self-supervised learning (SSL) моделях, таких как Wav2Vec2, HuBERT и Data2Vec. Мы извлекаем леса слоёв как признаков для обучения DNN-системы под управлением Kaldi. Этот подход позволяет использовать штатные модели SSL для KWS без дополнительной подготовки данных. Это означает, что мы можем эффективно распознавать речь детей, даже если у нас нет доступа к их речи в обучающих наборах. Мы проверяем нашу модель на двух разных данных: WSJCAM0 (для моделирования взрослых) и PFSTAR (для моделирования речи детей). ## Метод Мы используем три различных модели SSL: Wav2Vec2, HuBERT и Data2Vec для извлечения признаков. Из каждой модели мы извлекаем признаки выходов каждого слоя (layer-wise features). Затем, эти признаки используются для обучения DNN-системы под управлением Kaldi. Для обучения мы использовали WSJCAM0 (для моделирования взрослых), а для тестирования — PFSTAR (для моделирования речи детей). Это позволяет продемонстрировать zero-shot возможность нашего подхода. Для оценки производительности мы использовали классические метрики: ATWV (активное time-weighted accuracy), MTWV (maximum time-weighted accuracy), а также метрики false alarm и miss probability. Мы также проверяли устойчивость модели к шумам, используя лучшую модель и слой. Для дополнительной общей оценки мы повторили эксперименты с другим датасетом CMU. ## Результаты Наш подход демонстрирует выдающиеся результаты по сравнению с базой (MFCC-based KWS). Использование SSL-макрослоев, особенно из Wav2Vec2 (слой 22), дало значительные пользы: ATWV составил 0.691, MTWV — 0.7003, false alarm — 0.0164, miss probability — 0.0547 для 30 ключевых слов. Мы также проверили работу модели в шумных условиях и показали, что она превосходит традиционный MFCC-подход. Мы также проверили работу модели для разных возрастных групп детей и показали, что она эффективна во всех случаях. Повторные тесты на датасете CMU подтвердили универсальность нашего подхода и его устойчивость к разным условиям. ## Значимость Наш подход имеет широкое применение в различных системах, где необходимо распознавание речи детей. Он может быть использован в ди

Annotation:

Numerous methods have been proposed to enhance Keyword Spotting (KWS) in adult speech, but children's speech presents unique challenges for KWS systems due to its distinct acoustic and linguistic characteristics. This paper introduces a zero-shot KWS approach that leverages state-of-the-art self-supervised learning (SSL) models, including Wav2Vec2, HuBERT and Data2Vec. Features are extracted layer-wise from these SSL models and used to train a Kaldi-based DNN KWS system. The WSJCAM0 adult speech...

ID: 2508.21248v1 eess.AS, cs.AI, cs.HC, cs.SD, eess.SP

arXiv PDF

📄 EAI-Avatar: Emotion-Aware Interactive Talking Head Generation

2025-08-28

Авторы:

Haijie Yang, Zhenyu Zhang, Hao Tang, Jianjun Qian, Jian Yang

## Контекст Генерирующие модели становятся все более высокотехнологичными, в том числе в области говорящих головок (talking head generation). Однако большинство существующих моделей ограничиваются простой анимацией портрета в одностороннем режиме. Даже те, что могут обеспечить бидактивные диалоги, часто не умеют адаптироваться к эмоциям в реальном времени. Это ограничивает их практическое применение. Наша модель EAI-Avatar разработана для более естественных и эмоционально реагирующих диалогов, которые могут улучшить интерактивность в широком кругу приложений, таких как виртуальные ассистенты, игры и анимация. ## Метод EAI-Avatar основывается на диалоге ло LLM (например, GPT-4) для генерации текста, который далее используется для синтеза говорящего голова. Мы используем Transformer-based head mask generator, который учится определять консистентные фичи движения в пространстве масок. Это позволяет синтезировать последовательности движений головы в любой продолжительности. Для улучшения эмоциональной реактивности мы представили интерактивное дерево диалогов (interactive talking tree), в котором каждый узел содержит информацию о родственных элементах, текущем состоянии эмоций и истории взаимодействия. Мы проводим обратную структурную иерархию (reverse-level traversal) для извлечения эмоциональных подсказок из предыдущих узлов и управляем эмоциональным синтезом выражений. ## Результаты Мы провели эксперименты с различными диалогами и данными эмоций, сравнивая EAI-Avatar с другими моделями. Наши результаты показали значительное улучшение в точности адаптации эмоций и в качестве расширенных подсказок по диалогу. Модель удалось генерировать виртуальных аватаров с широким спектром эмоциональных реакций, которые выглядят натуральными и подходят для динамичных сценариев. Мы также проверили консистентность движений головы в продолжительных диалогах. ## Значимость EAI-Avatar может применяться в различных областях, включая виртуальных ассистентов, игровые системы, обучающие платформы и анимацию. Он предлагает надежные решения для генерации говорящих голов с эмоциональным вовлечением и консистентностью. Это может сделать взаимодействия более естественными и отзывчивыми, что повысит удобство пользователей. ## Выводы Мы предлагаем EAI-Avatar как новую модель для эмоционально реактивной говорящей головы. Будущие исследования будут фокусироваться на улучшении точности динамического синтеза эмоций, расширении интерактивных возможностей и оптимизации модели для реальных временных сценариев.

Annotation:

Generative models have advanced rapidly, enabling impressive talking head generation that brings AI to life. However, most existing methods focus solely on one-way portrait animation. Even the few that support bidirectional conversational interactions lack precise emotion-adaptive capabilities, significantly limiting their practical applicability. In this paper, we propose EAI-Avatar, a novel emotion-aware talking head generation framework for dyadic interactions. Leveraging the dialogue generat...

ID: 2508.18337v1 eess.AS, cs.AI, cs.SD

arXiv PDF

📄 Interpolating Speaker Identities in Embedding Space for Data Expansion

2025-08-28

Авторы:

Tianchi Liu, Ruijie Tao, Qiongqiong Wang, Yidi Jiang, Hardik B. Sailor, Ke Zhang, Jingru Lin, Haizhou Li

## Контекст СуCCESS глубокого обучения в системах распознавания речи и сигналов голоса тесно связан с доступом к большим, разнообразным и качественным данным, особенно в сфере распознавания речи по голосу. Однако получение таких данных часто связано с значительными трудностями, включая высокие затраты, сложность приемлемого сбора и ограничения в плане конфиденциальности. Эти факторы ограничивают мощность и широту применения технологий распознавания голоса. Ввиду этих проблем в статье предлагается новая методика, позволяющая увеличить объем данных для обучения, основываясь на интерполяции существующих спикер-идентификаторов. ## Метод Метод, предлагаемый в статье, называется **INSIDE (Interpolating Speaker Identities in Embedding Space)**. Он основывается на интерполяции между существующими спикер-идентификаторами в подготовленном пространстве эмбеддингов. Процесс включает в себя выбор близких спикер-идентификаторов, вычисление их интерполированных эмбеддингов с помощью сферической линейной интерполяции и генерацию новых аудиофайлов с помощью текстово-речевой системы. Эти генерируемые данные добавляются к исходному набору данных для последующего обучения моделей. Такая методика позволяет значительно расширить потенциальные источники для моделей распознавания голоса без необходимости сбора новых данных, а также повысить разнообразие тренировочных данных. ## Результаты Эксперименты показали, что модели, обученные на данных, расширенных методом INSIDE, демонстрируют значительные улучшения в плане точности распознавания. Точность распознавания в системах распознавания речи увеличивается на 3.06% до 5.24% в зависимости от типа тестовой задачи и данных. Также был проведен эксперимент на задаче классификации пола, где INSIDE показал улучшение в 13.44% по отношению к значениям классификации без использования этого метода. Эти результаты демонстрируют значимую эффективность INSIDE в расширении данных и улучшении результатов моделей. ## Значимость Предлагаемый подход имеет широкие возможности применения в системах распознавания речи и сигналов голоса. Он обеспечивает значительную экономию времени и ресурсов, позволяя создавать более разнообразные и качественные наборы данных для моделей. Увеличение количества данных позволяет улучшить точность распознавания и обеспечить более высокую разнообразность моделей, что в итоге приводит к лучшему качеству использования в реальных ситуациях. Инновационность метода заключается в том, что он не только эффективен, но и гибкий, позволяя интегрироваться с другими техниками увеличения данных. ## Выводы В целом, INSIDE является про

Annotation:

The success of deep learning-based speaker verification systems is largely attributed to access to large-scale and diverse speaker identity data. However, collecting data from more identities is expensive, challenging, and often limited by privacy concerns. To address this limitation, we propose INSIDE (Interpolating Speaker Identities in Embedding Space), a novel data expansion method that synthesizes new speaker identities by interpolating between existing speaker embeddings. Specifically, we ...

ID: 2508.19210v1 eess.AS, cs.AI

arXiv PDF

📄 Mitigating Hallucinations in LM-Based TTS Models via Distribution Alignment Using GFlowNets

2025-08-23

Авторы:

Chenlin Liu, Minghui Fang, Patrick Zhang, Wei Zhou, Jie Gao, Jiqing Han

#################### ## Контекст #################### Генеративные модели текста-na-речь (TTS), основанные на языковых моделях (LM), стали популярными в связи с их возможностью генерировать естественную и естественно выраженную речь. Однако, эти модели часто сталкиваются с проблемой "фантомных" выводов (hallucinations), когда генерируемый синтетический текст отклоняется от оригинального ввода. Такие ошибки могут привести к затруднению понимания речи, особенно в критических сценариях, таких как ассистирующие технологии и синтез речи в системах распознавания речи. Существуют существующие стратегии, стремящиеся устранить эту проблему, но они либо требуют больших вычислительных ресурсов, либо влияют на производительность модели во время выполнения. Это создает необходимость в эффективном и масштабируемом подходе для устранения этих проблем. #################### ## Метод #################### В данной работе предлагается GFlowNet-guided distribution AlignmenT (GOAT) — пост-тренировочный фреймворк для устранения "фантомных" выводов в LM-based TTS. Методология GOAT основывается на анализе неопределенности модели, который демонстрирует сильную положительную корреляцию между высоким уровнем неопределенности и высоким показателем фантомных выводов. Траектория генерации речи представляется как задача оптимизации распределения потока. Для этого предложена усовершенствованная структура Subtrajectory Balance, а также добавлена новая целевая дистрибуция с учетом sharpened internal reward. Для повышения устойчивости и баланса производительности в рамках GOAT внедрено декремент реварда (reward temperature decay) и оптимизацию learning rate. #################### ## Результаты #################### Проведенные эксперименты показали, что GOAT позволяет существенно улучшить качество синтеза речи, снизивший character error rate (CER) на трудных тестовых случаях на более чем 50%. Более того, GOAT позволили снизить неопределенность модели до 58%, что указывает на ее высокую общероботуемость и эффективность в устранении "фантомных" выводов. Эти результаты были получены без дополнительных ресурсов или повышенных затрат на выполнение. #################### ## Значимость #################### Предлагаемый подход имеет широкие потенциальные применения в сфере генеративных текстов-на-речь, в том числе применения в синтезе речи для ассистирующих технологий, систем распознавания речи и живой связи с пользователем. Одним из основных преимуществ GOAT является его эффективность в решении проблемы "фантомных" выводов с минимальными затратами на ресурсы и время выполнения. Этот подход может стать ключевым элементом в создании более надежных и точных текстовых-на-речь систем. #################### ## Выводы #################### В итоге, GOAT представляет собой прорыв в области устранения "фантомных" выводов в LM-based

Annotation:

Language Model (LM)-based Text-to-Speech (TTS) systems often generate hallucinated speech that deviates from input text. Existing mitigation strategies either demand excessive training resources or introduce significant inference latency. In this paper, we propose GFlOwNet-guided distribution AlignmenT (GOAT) for LM-based TTS, a post-training framework that mitigates hallucinations without relying on massive resources or inference cost. Specifically, we first conduct an uncertainty analysis, rev...

ID: 2508.15442v1 eess.AS, cs.AI, cs.SD

arXiv PDF

📄 Towards Low-Latency Tracking of Multiple Speakers With Short-Context Speaker Embeddings

2025-08-22

Авторы:

Taous Iatariene, Alexandre Guérin, Romain Serizel

## Контекст Одна из сложностей технологий синтеза речи и транскрибирования речи в реальном времени заключается в необходимости определения и отслеживания идентичности речи в условиях непрерывного или множественного звучания. Одним из ключевых элементов этой задачи является эффективное распознавание и отслеживание речи в условиях суперпозиции голосов (overlay speech), которая требует точного распознавания и отслеживания речи, а также задействования длительного контекста для решения этой задачи. Однако, это приводит к повышению вероятности ошибок в системе отслеживания и приводит к неточности в последующем идентификации речи. Этот проект адресует эту проблему, предлагая новую методологию для улучшения локализации и отслеживания речи, ориентированные на уменьшение задержек и улучшение точности отслеживания в условиях параллельного звучания голосов. ## Метод Методология, предлагаемая в работе, основывается на ноуватой технике Knowledge Distillation (KD), которая используется для повышения эффективности распознавания речи в условиях двух-голосовых ситуаций. Метод использует короткий контекст распознавания речи, чтобы уменьшить задержки и улучшить частоту ошибок. Для повышения точности распознавания используется специальная техника beamforming, которая позволяет обрабатывать звук более точно и уменьшать шум и помехи. Этот подход применяется в ситуациях, когда два звука различаются одновременно, чтобы повысить точность и уменьшить задержки в процессе отслеживания речи. ## Результаты Проведенные эксперименты показали, что использование дистилляционной техники KD и beamforming действительно повышает эффективность речи и уменьшает задержки в системе отслеживания речи. Результаты показали, что полученные модели демонстрируют улучшение в обработке двух-голосовых ситуаций, особенно в ситуациях с одновременным звучанием голосов. Однако, хотя модели были успешны в уменьшении задержек и улучшении точности отслеживания, они показали недостаточную производительность при обработке ситуаций с более сложным распределением речи. Это указывает на необходимость дальнейших исследований в этой области, чтобы улучшить производительность моделей в наиболее сложных ситуациях. ## Значимость Предложенный подход может быть применен в различных областях, включая технологии для распознавания речи в реальном времени, системы транскрибирования речи и технологии для обеспечения повышенного уровня безопасности и точности при работе с голосовыми подсказками. Основные преимущества этого подхода заключаются в том, что он уменьшает задержки и улучшает точность распознавания речи в условиях многоголосности.

Annotation:

Speaker embeddings are promising identity-related features that can enhance the identity assignment performance of a tracking system by leveraging its spatial predictions, i.e, by performing identity reassignment. Common speaker embedding extractors usually struggle with short temporal contexts and overlapping speech, which imposes long-term identity reassignment to exploit longer temporal contexts. However, this increases the probability of tracking system errors, which in turn impacts negative...

ID: 2508.14115v1 eess.AS, cs.AI, cs.SD, eess.SP

arXiv PDF

1
2
4
5
6
7
8

Показано 51 - 60 из 74 записей