📚 Саммари научных статей из arXiv

Найдено 23 результатов по запросу 'eess.AS, cs.AI, cs.SD' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня

📄 FlexSED: Towards Open-Vocabulary Sound Event Detection

2025-09-25

Авторы:

Jiarui Hai, Helin Wang, Weizhe Guo, Mounya Elhilali

## Контекст Звуковое событийное распознавание (Sound Event Detection, SED) является ключевым заданием в области обработки звука, которое стремится к точному выявлению и разметке звуковых событий в аудиозаписях. Традиционные SED-системы ограничены в своей способности обрабатывать широкий объем звуков и эффективно реагировать на нестандартные запросы. Существующие подходы, основанные на классических методах классификации, не могут удовлетворить потребности в гибкой интерактивной обработке, такой как определение звуков по текстовым запросам. Эта проблема особенно актуальна в повседневных сценариях, где пользователи желают использовать свободную терминологию для описания звуков. Кроме того, существующие системы либо не обладают нулевоквантными (zero-shot) способностями, либо имеют слабую адаптивность в условиях небольшого числа обучающих примеров. Эти ограничения призывают к развитию новых подходов, которые могли бы расширить возможности систем SED. ## Метод FlexSED — это система open-vocabulary SED, разработанная на базе предобученного модели аудио-с SELF (Self-supervised Learning, SSL) и CLAP (Contrastive Language-Audio Pre-training) текстового кодировщика. Главным инновационным аспектом FlexSED является использование композиции в кодировщике-декодировщике (encoder-decoder), которая позволяет эффективно применять модель к продолжительным аудиозаписям. Более того, система применяет адаптивную стратегию фьюзинга для объединения сигналов с различных ресурсов. Чтобы улучшить условия обучения, FlexSED интегрирует большие языковые модели (LLMs), которые помогают в выборе эвент-квери (event query) для тренировочных данных, адрессовав проблему отсутствия меток. Эта стратегия позволяет FlexSED значительно повысить свою универсальность и эффективность в условиях ограниченного количества данных. ## Результаты В ходе экспериментов FlexSED была проверена на выборке AudioSet-Strong, которая представляет собой сложную звуковую среду с различными звуковыми событиями. В сравнении с существующими SED-моделями, FlexSED показала значительное улучшение в точности распознавания и скорости обнаружения событий. Особенно выдающимися результатами она проявилась в зоне zero-shot и few-shot обучения, где её устойчивость и гибкость доказались как на новых типах звуков, так и при небольшом количестве примеров. Эти результаты значительно обогащают потенциал применения SED в различных практических сценариях. ## Значимость FlexSED открывает новые перспективы для широкого круга приложений, включая системы управления аудио, автоматизированные анализаторы звука и системы поддержки слухового восприятия.

Annotation:

Despite recent progress in large-scale sound event detection (SED) systems capable of handling hundreds of sound classes, existing multi-class classification frameworks remain fundamentally limited. They cannot process free-text sound queries, which enable more flexible and user-friendly interaction, and they lack zero-shot capabilities and offer poor few-shot adaptability. Although text-query-based separation methods have been explored, they primarily focus on source separation and are ill-suit...

ID: 2509.18606v1 eess.AS, cs.AI, cs.SD

arXiv PDF

📄 Training Flow Matching Models with Reliable Labels via Self-Purification

2025-09-25

Авторы:

Hyeongju Kim, Yechan Yu, June Young Yi, Juheon Lee

## Контекст В области глубокого обучения становится все более важной задачей обеспечения качества данных, используемых для обучения моделей. Одна из основных проблем заключается в том, что данные, которыми обучаются модели, часто содержат неточно помеченные примеры. Эти неточности могут быть вызваны неточностью человеческого анализа, ограничениями моделей тегирования и другими источниками шума. Недостаточно чистые данные ведут к ухудшению качества моделей и их неустойчивости. Эта проблема широко распространена во всех сферах, где используется глубокое обучение, от текстового понимания до звукового распознавания. В настоящей работе мы рассматриваем этот вопрос в контексте применения моделей течения (flow-matching) и предлагаем подход, который позволяет автоматически избавляться от неточных данных во время обучения. ## Метод Мы предлагаем подход, названный Self-Purifying Flow Matching (SPFM), который основывается на принципах формализации моделей течения. SPFM использует модель, которая обучается на данных, для идентификации "шумовых" примеров. В процессе обучения модель сама определяет примеры, которые не соответствуют условиям обучения, и отбрасывает их. Это позволяет избежать зависимости от дополнительных модулей или предварительно обученных моделей. Мы используем гибкий архитектурный подход, который позволяет SPFM "научиться" отбирать данные в течение обучения. Это происходит без явного указания предварительных моделей или внешних источников данных. ## Результаты Мы проводим эксперименты на различных наборах данных, включая текстовые и звуковые данные. В ходе экспериментов мы показываем, что модель, обученная с использованием SPFM, выдает результаты, которые значительно превосходят результаты моделей, обученных на неподчищенных данных. Мы также проверяем нашу модель на данных с шумом в условиях реального мира (in-the-wild data), таких как TITW (датасет с реальным речевым вводом). Мы показываем, что SPFM позволяет модели сохранять высокую точность, даже когда обучение происходит на шумных данных. Эти результаты подтверждают, что SPFM может автоматически очищать данные во время обучения, гарантируя высокое качество модели в любых обстоятельствах. ## Значимость Мы видим применение SPFM в различных областях, таких как звуковое распознавание, текстовое понимание и даже машинное обучение с шумовыми данными. Например, SPFM может быть применим для моделей, которые обучаются на звуковых данных в условиях реального мира, таких как речевые команды для смарт-устройств. Мы видим, что SPFM может преодолеть ограничения существующих подходов, обеспечивая более надежные результаты. В будущем мы планируем расширить SPFM на другие типы данных, такие

Annotation:

Training datasets are inherently imperfect, often containing mislabeled samples due to human annotation errors, limitations of tagging models, and other sources of noise. Such label contamination can significantly degrade the performance of a trained model. In this work, we introduce Self-Purifying Flow Matching (SPFM), a principled approach to filtering unreliable data within the flow-matching framework. SPFM identifies suspicious data using the model itself during the training process, bypassi...

ID: 2509.19091v1 eess.AS, cs.AI, cs.SD

arXiv PDF

📄 Audio-Conditioned Diffusion LLMs for ASR and Deliberation Processing

2025-09-24

Авторы:

Mengqi Wang, Zhan Liu, Zengrui Jin, Guangzhi Sun, Chao Zhang, Philip C. Woodland

## Контекст Статья рассматривает применение инновационных Diffusion-based Large Language Models (DLLMs) в области Automatic Speech Recognition (ASR), а именно применение модели LLaDA для оценки текста из речи. Область ASR широко применяется в системах контроля голосом, помощи в ситуациях с недоступностью клавиатуры, автоматизации сервисных процессов и многом другом. Несмотря на прогрессы в ASR, остаются проблемы, такие как высокая ошибка распознавания на нестандартных акцентах или шумных условиях. DLLMs, в частности LLaDA, могут решить эти проблемы благодаря их мощной символической и активной обработке текста, а также их возможностью работы с аудио и текстовыми сигналами. ## Метод Методология основывается на использовании модели LLaDA для ASR, которая работает как дополнительный модуль для процесса декодирования речи. На основе Whisper-LLaMA, авторы испытали различные стратегии обработки текста: random masking, low-confidence masking и semi-autoregressive decoding. Эти методы позволяют LLaDA лучше использовать свои природные способности к bidirectional attention и denoising. Также LLaDA получает дополнительные аудио-кодировки, которые значительно повышают точность распознавания. Для сравнения, они провели эксперименты с "простой" LLaDA без аудио-кодировки, что показало проблему нехватки информации при работе только с текстом. ## Результаты В результатах статьи приводятся результаты ASR с использованием Whisper-LLaDA в качестве дополнительного модуля. Эксперименты проводились на двух датасетах: LibriSpeech и другом домашнем датасете. На test-clean и test-other LibriSpeech, лучшая система с Whisper-LLaDA показала результаты в 2.25%/4.94% WER (Word Error Rate), что является 12.3% относительного улучшения в сравнении с базовой Whisper-LLaMA. В то же время, использование "простой" LLaDA без аудио-кодировки не привело к улучшению. Это подчеркивает важное значение аудио-кодировки для повышения качества распознавания речи. ## Значимость Полученные результаты показывают, что добавление аудио-кодировок в модель LLaDA может значительно повысить качество распознавания речи, особенно на сложных данных. Это открывает новые пути для применения DLLMs в аспектах ASR, таких как распознавание разговорных языков, работа с шумом и специализированные ситуации, такие как работа с нестандартными акцентами. Также, LLaDA может применяться в ситуациях требующих быстрого реагирования, так как в некоторых конфигурациях она вы most cases, Whisper-LLaDA provided faster inference than the Whisper-LLaMA baseline. ## Выводы Лингвистические модели, основанные на Diffusion-based DLLMs, демонстрируют очень высокую потенциальную эффективность в области ASR. Это демонстрируется применением LLaDA как дополнительного модуля для ASR. Однако, необходимо продолжать работу над улучшением точности распознавания и уменьшением в

Annotation:

Diffusion-based large language models (DLLMs) have recently attracted growing interest as an alternative to autoregressive decoders. In this work, we present an empirical study on using the diffusion-based large language model LLaDA for automatic speech recognition (ASR). We first investigate its use as an external deliberation-based processing module for Whisper-LLaMA transcripts. By leveraging the bidirectional attention and denoising capabilities of LLaDA, we explore random masking, low-confi...

ID: 2509.16622v1 eess.AS, cs.AI, cs.SD

arXiv PDF

📄 SongPrep: A Preprocessing Framework and End-to-end Model for Full-song Structure Parsing and Lyrics Transcription

2025-09-24

Авторы:

Wei Tan, Shun Lei, Huaicheng Zhang, Guangzheng Li, Yixuan Zhang, Hangting Chen, Jianwei Yu, Rongzhi Gu, Dong Yu

## Контекст Искусственно генерируемое содержимое (AIGC) является одной из наиболее активных областей исследований в машинном обучении. Одним из востребованных направлений в AIGC является генерация музыки, в том числе и треков с песнями. Несмотря на то, что доступно многочисленных музыкальных композиций, эффективное её подготовка для обучения моделей остается значительной проблемой. Обработка треков в музыкальных носителях часто требует тщательного ручного подбора меток, что является дорогостоящим и времязатратным процессом. Данные сложности подчеркивают необходимость разработки автоматизированных средств для подготовки данных, которые могли бы упростить процесс подготовки и повысить качество тренировочных данных. Мы предлагаем SongPrep, автоматизированную парсер-фреймворк для обработки и подготовки данных с песнями, который упрощает процесс подготовки данных, предоставляя их в удобном для обучения виде. ## Метод SongPrep представляет собой фреймворк, который включает в себя несколько ключевых модулей: источником отделения, анализом структуры и распознаванием текста. Для источника отделения используется U-Net с основной архитектурой на основе конволюционных сетей. Для распознавания структуры и текста используется seq2seq модель, основанная на BERT, которая значительно повышает точность распознавания. Кроме того, для обеспечения детального анализа текста и получения точных позиционных данных, в SongPrepE2E используется pretrained BERT, который обеспечивает лучшую понимание контекста и точность в локализации слов. Модель также включает в себя архитектуру, которая позволяет ей обрабатывать информацию с целой композиции, что улучшает общую точность локализации и понимания текста. ## Результаты Мы проверили SongPrep на двух этапах: на этапе предобработки данных и на этапе обучения моделей генерации песен. Для подтверждения эффективности SongPrep, мы сравнили его с другими методами подготовки данных в сценариях, включая тестирование различных моделей генерации. Основным показателем успеха является точность распознавания текста и структуры песни. В результате, SongPrep показал существенное улучшение в точности распознавания и уменьшил Diarization Error Rate (DER) и Word Error Rate (WER) на 15% в сравнении с другими методами. Эксперименты показали, что SongPrepE2E может обеспечить более точное локализацию текста и соблюдение структуры песни, что существенно повышает качество генерируемых песен. ## Значимость SongPrep может применяться в различных сценариях, включая генерацию песен, подготовку данных для генеративных моделей, а также в области поиска и анализа музыкальных композиций. О

Annotation:

Artificial Intelligence Generated Content (AIGC) is currently a popular research area. Among its various branches, song generation has attracted growing interest. Despite the abundance of available songs, effective data preparation remains a significant challenge. Converting these songs into training-ready datasets typically requires extensive manual labeling, which is both time consuming and costly. To address this issue, we propose SongPrep, an automated preprocessing pipeline designed specifi...

ID: 2509.17404v1 eess.AS, cs.AI, cs.SD

arXiv PDF

📄 DSpAST: Disentangled Representations for Spatial Audio Reasoning with Large Language Models

2025-09-19

Авторы:

Kevin Wilkinghoff, Zheng-Hua Tan

## Контекст Одна из основных задач в обработке звука — выделять и анализировать спектральные характеристики аудиосигналов, чтобы определять типы звуковых событий, их направление и расстояние до источника. Типичным решением является использование специализированных акустических моделей, которые извлекают акустические признаки для каждой задачи по отдельности. Однако, применение таких моделей в структуре ОСНОВНОГО текста требует выделения НАПРАВЛЕНИЙ и структуризированного разделения концепций, что может привести к НАПРЯЖЕНИЮ в понимании. Важное НАПРЯЖЕНИЕ заключается в том, что большинство моделей не могут эффективно обрабатывать независимые признаки, что приводит к потерям в точности. В этой работе мы предлагаем DSpAST, модель, которая изучает разделенные представления пространственного аудио, сохраняя штатные значения только в 0.2% дополнительных параметров. ## Метод DSpAST основывается на SpatialAST, но включает в себя новую архитектуру, которая разделяет обучение на независимые подзадачи. Модель использует глубокие нейронные сети, которые обучаются с помощью алгоритмов градиентного спуска. В центре DSpAST лежит идея дисегментации: каждая подзадача имеет свой отдельный модуль, который извлекает индивидуальные признаки, такие как тип звука, направление и расстояние. Таким образом, модель избегает слияния независимых признаков и повышает точность распознавания. Дополнительно, модель использует предобученные модели, чтобы улучшить обучение и снизить время обучения. ## Результаты Для оценки DSpAST проведены эксперименты на датасете SpatialSoundQA. Мы сравнили результаты с SpatialAST и другими моделями. Результаты показали, что DSpAST превосходит SpatialAST на 15% в точности определения типа звука, а также повышает точность определения направления и расстояния на 10%. Это демонстрирует эффективность DSpAST в разделении задач и повышении общей точности. Также было проведено визуальное и аналитическое сравнение результатов, подтвердив высокую степень улучшения в сравнении с остальными моделями. ## Значимость Результаты DSpAST имеют широкие применения в области процессинга звука, в том числе в системах автоматического определения географического положения и системах реалистичного воспроизведения звука. Из-за своего высокого уровня точности и эффективности, DSpAST может быть использовано в коммерческих решениях, таких как системы видеоконференцсиалов, системы автоматического управления звуком и даже в VR/AR-приложениях. Этот подход также может способствовать развитию ИИ в сфере прогнозирования и анализа аудиосигналов. ## Выво

Annotation:

Reasoning about spatial audio with large language models requires a spatial audio encoder as an acoustic front-end to obtain audio embeddings for further processing. Such an encoder needs to capture all information required to detect the type of sound events, as well as the direction and distance of their corresponding sources. Accomplishing this with a single audio encoder is demanding as the information required for each of these tasks is mostly independent of each other. As a result, the perf...

ID: 2509.13927v1 eess.AS, cs.AI, cs.SD

arXiv PDF

📄 IS${}^3$ : Generic Impulsive--Stationary Sound Separation in Acoustic Scenes using Deep Filtering

2025-09-05

Авторы:

Berger Clémentine, Stamadiatis Paraskevas, Badeau Roland, Essid Slim

## Контекст Область рассмотрения — разработка систем анализа акустических сцен, которые могут выделять изолированные акустические события и стационарные фоновые звуки. Такие системы применяются для решения реальных задач, включая адаптивную настройку звука, убирание шумов, очистку голоса, классификацию акустических событий и даже анализ биоакустики. Однако существующие методы, такие как Harmonic--Percussive Sound Separation (HPSS) или wavelet filtering, не так эффективны при работе с сигналами акустических сцен. Требуется более специализированный подход для разделения impulsive (изолированных) и stationary (стационарных) звуков. Мотивация заключается в создании универсальной системы IS${}^3$, которая моглала бы решить эту проблему, обеспечивая универсальный и эффективный подход к акустическому разделению. ## Метод Для решения данной задачи предложена методология Deep Filtering, которая основывается на нейронных сетях. IS${}^3$ — это нейронная сеть, которая отделяет impulsive и stationary события в акустических сценах. Основной идеей является использование фильтрации, чтобы выделить акустические события, которые имеют импульсный характер (например, стоны, звуки стука), от стационарных фоновых звуков (например, шума помещения). Архитектура сети включает нейронные слои, работающие с звуковыми данными с разными частотными особенностями. Для эффективной обученности сети была разработана инновационная система подготовки данных, которая позволяет применять использованные данные в различных контекстах и условиях. ## Результаты В ходе экспериментов сравнили результаты IS${}^3$ с двумя другими подходами: Harmonic--Percussive Sound Separation и wavelet filtering. Были использованы разные акустические данные, включая синтетические и реальные сигналы. Результаты показали, что IS${}^3$ превосходит другие методы по таким критериям, как Signal-to-Distortion Ratio (SDR) и Signal-to-Interference Ratio (SIR). Например, IS${}^3$ показала значительно более высокую точность в отделении impulsive звуков от фоновых, сравниваясь с HPSS. Также работа была протестирована на нескольких сценах, включая голос и природные звуки, и показала устойчивость в различных условиях. ## Значимость Полученная система IS${}^3$ имеет большое практическое значение в различных областях. Она может применяться в адаптивном аудио-процессинге, например для компрессии или нормализации звука, в устранении шумов, в классификации акустических событий и даже в биоакустическом исследовании. Ее главное преимущество — универсальность и эффективность, которые позволяют применять ее в разных сценах. Благодаря своему новому подходу, IS${}^

Annotation:

We are interested in audio systems capable of performing a differentiated processing of stationary backgrounds and isolated acoustic events within an acoustic scene, whether for applying specific processing methods to each part or for focusing solely on one while ignoring the other. Such systems have applications in real-world scenarios, including robust adaptive audio rendering systems (e.g., EQ or compression), plosive attenuation in voice mixing, noise suppression or reduction, robust acousti...

ID: 2509.02622v1 eess.AS, cs.AI, cs.SD, eess.SP

arXiv PDF

📄 AHAMask: Reliable Task Specification for Large Audio Language Models without Instructions

2025-09-05

Авторы:

Yiwei Guo, Bohan Li, Hankun Wang, Zhihan Li, Shuai Wang, Xie Chen, Kai Yu

#### Контекст Крупные звуковые языковые модели (LALMs) расширяют текстовые модели с большим объемом текстов, добавляя универсальные возможности звукового понимания. Однако они чувствительны к инструкциям, при которых задачи, выраженные в разных формах, могут приводить к разным результатам. Эта непредсказуемость ограничивает широкое применение LALMs в реальных сценариях. Для решения этой проблемы необходима универсальная, надежная и простая в использовании система управления задачами, не требующая конкретных инструкций. #### Метод Мы предлагаем AHAMask — метод, основанный на маскировании определенных аттенционных заголовков в декодерной LALM-модели. Этот подход позволяет непосредственно активировать функции звукового понимания, не требуя специальных инструкций. Маски обучаются в составе LALM-архитектуры, сохраняя количество тренируемых параметров равным количеству аттенционных заголовков в основной модели. Это снижает влияние дополнительных параметров на модель и обеспечивает эффективность. #### Результаты Мы провели эксперименты с широким спектром звуковых задач, включая распознавание речи, синтез речи и задачи композиции. Результаты показали, что AHAMask обеспечивает сопоставимую или даже лучшую производительность по сравнению с традиционными методами, использующими инструкции. Это подтверждает возможность LALM для надежного и бесшовного управления задачами. #### Значимость AHAMask может быть использован в различных сферах, таких как распознавание речи, звуковой анализ, генерация звука и синтез речи. Он предлагает удобную альтернативу инструкциям, что уменьшает сложность использования модели в реальных задачах. Это раскрывает перспективы для более широкого применения LALMs в сценариях, где надежность и простота ключевые факторы. #### Выводы AHAMask доказывает, что LALM-модели содержат "функциональные пути", которые могут быть активированы с помощью селективного маскирования. На этой основе мы планируем рассмотреть более глубокое изучение этих путей, чтобы улучшить понимание и управление функциональностью LALM-моделей. Также мы намереваемся применить этот подход к другим задачам, включая видео- и текстовые модели.

Annotation:

Although current large audio language models (LALMs) extend text large language models (LLMs) with generic acoustic understanding abilities, they usually suffer from instruction sensitivity, where different instructions of the same intention can yield drastically different outcomes. In this work, we propose AHAMask, where we simply mask some of the attention heads in the decoder-only LLM backbone of LALMs, to trigger specific acoustic task functionalities without instructions. These masks are ef...

ID: 2509.01787v1 eess.AS, cs.AI, cs.SD

arXiv PDF

📄 EAI-Avatar: Emotion-Aware Interactive Talking Head Generation

2025-08-28

Авторы:

Haijie Yang, Zhenyu Zhang, Hao Tang, Jianjun Qian, Jian Yang

## Контекст Генерирующие модели становятся все более высокотехнологичными, в том числе в области говорящих головок (talking head generation). Однако большинство существующих моделей ограничиваются простой анимацией портрета в одностороннем режиме. Даже те, что могут обеспечить бидактивные диалоги, часто не умеют адаптироваться к эмоциям в реальном времени. Это ограничивает их практическое применение. Наша модель EAI-Avatar разработана для более естественных и эмоционально реагирующих диалогов, которые могут улучшить интерактивность в широком кругу приложений, таких как виртуальные ассистенты, игры и анимация. ## Метод EAI-Avatar основывается на диалоге ло LLM (например, GPT-4) для генерации текста, который далее используется для синтеза говорящего голова. Мы используем Transformer-based head mask generator, который учится определять консистентные фичи движения в пространстве масок. Это позволяет синтезировать последовательности движений головы в любой продолжительности. Для улучшения эмоциональной реактивности мы представили интерактивное дерево диалогов (interactive talking tree), в котором каждый узел содержит информацию о родственных элементах, текущем состоянии эмоций и истории взаимодействия. Мы проводим обратную структурную иерархию (reverse-level traversal) для извлечения эмоциональных подсказок из предыдущих узлов и управляем эмоциональным синтезом выражений. ## Результаты Мы провели эксперименты с различными диалогами и данными эмоций, сравнивая EAI-Avatar с другими моделями. Наши результаты показали значительное улучшение в точности адаптации эмоций и в качестве расширенных подсказок по диалогу. Модель удалось генерировать виртуальных аватаров с широким спектром эмоциональных реакций, которые выглядят натуральными и подходят для динамичных сценариев. Мы также проверили консистентность движений головы в продолжительных диалогах. ## Значимость EAI-Avatar может применяться в различных областях, включая виртуальных ассистентов, игровые системы, обучающие платформы и анимацию. Он предлагает надежные решения для генерации говорящих голов с эмоциональным вовлечением и консистентностью. Это может сделать взаимодействия более естественными и отзывчивыми, что повысит удобство пользователей. ## Выводы Мы предлагаем EAI-Avatar как новую модель для эмоционально реактивной говорящей головы. Будущие исследования будут фокусироваться на улучшении точности динамического синтеза эмоций, расширении интерактивных возможностей и оптимизации модели для реальных временных сценариев.

Annotation:

Generative models have advanced rapidly, enabling impressive talking head generation that brings AI to life. However, most existing methods focus solely on one-way portrait animation. Even the few that support bidirectional conversational interactions lack precise emotion-adaptive capabilities, significantly limiting their practical applicability. In this paper, we propose EAI-Avatar, a novel emotion-aware talking head generation framework for dyadic interactions. Leveraging the dialogue generat...

ID: 2508.18337v1 eess.AS, cs.AI, cs.SD

arXiv PDF

📄 Mitigating Hallucinations in LM-Based TTS Models via Distribution Alignment Using GFlowNets

2025-08-23

Авторы:

Chenlin Liu, Minghui Fang, Patrick Zhang, Wei Zhou, Jie Gao, Jiqing Han

#################### ## Контекст #################### Генеративные модели текста-na-речь (TTS), основанные на языковых моделях (LM), стали популярными в связи с их возможностью генерировать естественную и естественно выраженную речь. Однако, эти модели часто сталкиваются с проблемой "фантомных" выводов (hallucinations), когда генерируемый синтетический текст отклоняется от оригинального ввода. Такие ошибки могут привести к затруднению понимания речи, особенно в критических сценариях, таких как ассистирующие технологии и синтез речи в системах распознавания речи. Существуют существующие стратегии, стремящиеся устранить эту проблему, но они либо требуют больших вычислительных ресурсов, либо влияют на производительность модели во время выполнения. Это создает необходимость в эффективном и масштабируемом подходе для устранения этих проблем. #################### ## Метод #################### В данной работе предлагается GFlowNet-guided distribution AlignmenT (GOAT) — пост-тренировочный фреймворк для устранения "фантомных" выводов в LM-based TTS. Методология GOAT основывается на анализе неопределенности модели, который демонстрирует сильную положительную корреляцию между высоким уровнем неопределенности и высоким показателем фантомных выводов. Траектория генерации речи представляется как задача оптимизации распределения потока. Для этого предложена усовершенствованная структура Subtrajectory Balance, а также добавлена новая целевая дистрибуция с учетом sharpened internal reward. Для повышения устойчивости и баланса производительности в рамках GOAT внедрено декремент реварда (reward temperature decay) и оптимизацию learning rate. #################### ## Результаты #################### Проведенные эксперименты показали, что GOAT позволяет существенно улучшить качество синтеза речи, снизивший character error rate (CER) на трудных тестовых случаях на более чем 50%. Более того, GOAT позволили снизить неопределенность модели до 58%, что указывает на ее высокую общероботуемость и эффективность в устранении "фантомных" выводов. Эти результаты были получены без дополнительных ресурсов или повышенных затрат на выполнение. #################### ## Значимость #################### Предлагаемый подход имеет широкие потенциальные применения в сфере генеративных текстов-на-речь, в том числе применения в синтезе речи для ассистирующих технологий, систем распознавания речи и живой связи с пользователем. Одним из основных преимуществ GOAT является его эффективность в решении проблемы "фантомных" выводов с минимальными затратами на ресурсы и время выполнения. Этот подход может стать ключевым элементом в создании более надежных и точных текстовых-на-речь систем. #################### ## Выводы #################### В итоге, GOAT представляет собой прорыв в области устранения "фантомных" выводов в LM-based

Annotation:

Language Model (LM)-based Text-to-Speech (TTS) systems often generate hallucinated speech that deviates from input text. Existing mitigation strategies either demand excessive training resources or introduce significant inference latency. In this paper, we propose GFlOwNet-guided distribution AlignmenT (GOAT) for LM-based TTS, a post-training framework that mitigates hallucinations without relying on massive resources or inference cost. Specifically, we first conduct an uncertainty analysis, rev...

ID: 2508.15442v1 eess.AS, cs.AI, cs.SD

arXiv PDF

📄 Towards Low-Latency Tracking of Multiple Speakers With Short-Context Speaker Embeddings

2025-08-22

Авторы:

Taous Iatariene, Alexandre Guérin, Romain Serizel

## Контекст Одна из сложностей технологий синтеза речи и транскрибирования речи в реальном времени заключается в необходимости определения и отслеживания идентичности речи в условиях непрерывного или множественного звучания. Одним из ключевых элементов этой задачи является эффективное распознавание и отслеживание речи в условиях суперпозиции голосов (overlay speech), которая требует точного распознавания и отслеживания речи, а также задействования длительного контекста для решения этой задачи. Однако, это приводит к повышению вероятности ошибок в системе отслеживания и приводит к неточности в последующем идентификации речи. Этот проект адресует эту проблему, предлагая новую методологию для улучшения локализации и отслеживания речи, ориентированные на уменьшение задержек и улучшение точности отслеживания в условиях параллельного звучания голосов. ## Метод Методология, предлагаемая в работе, основывается на ноуватой технике Knowledge Distillation (KD), которая используется для повышения эффективности распознавания речи в условиях двух-голосовых ситуаций. Метод использует короткий контекст распознавания речи, чтобы уменьшить задержки и улучшить частоту ошибок. Для повышения точности распознавания используется специальная техника beamforming, которая позволяет обрабатывать звук более точно и уменьшать шум и помехи. Этот подход применяется в ситуациях, когда два звука различаются одновременно, чтобы повысить точность и уменьшить задержки в процессе отслеживания речи. ## Результаты Проведенные эксперименты показали, что использование дистилляционной техники KD и beamforming действительно повышает эффективность речи и уменьшает задержки в системе отслеживания речи. Результаты показали, что полученные модели демонстрируют улучшение в обработке двух-голосовых ситуаций, особенно в ситуациях с одновременным звучанием голосов. Однако, хотя модели были успешны в уменьшении задержек и улучшении точности отслеживания, они показали недостаточную производительность при обработке ситуаций с более сложным распределением речи. Это указывает на необходимость дальнейших исследований в этой области, чтобы улучшить производительность моделей в наиболее сложных ситуациях. ## Значимость Предложенный подход может быть применен в различных областях, включая технологии для распознавания речи в реальном времени, системы транскрибирования речи и технологии для обеспечения повышенного уровня безопасности и точности при работе с голосовыми подсказками. Основные преимущества этого подхода заключаются в том, что он уменьшает задержки и улучшает точность распознавания речи в условиях многоголосности.

Annotation:

Speaker embeddings are promising identity-related features that can enhance the identity assignment performance of a tracking system by leveraging its spatial predictions, i.e, by performing identity reassignment. Common speaker embedding extractors usually struggle with short temporal contexts and overlapping speech, which imposes long-term identity reassignment to exploit longer temporal contexts. However, this increases the probability of tracking system errors, which in turn impacts negative...

ID: 2508.14115v1 eess.AS, cs.AI, cs.SD, eess.SP

arXiv PDF

1
2
3

Показано 11 - 20 из 23 записей