📚 Саммари научных статей из arXiv

Найдено 65 результатов по запросу 'cs.AI, cs.SD' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 FlexSED: Towards Open-Vocabulary Sound Event Detection

2025-09-25

Авторы:

Jiarui Hai, Helin Wang, Weizhe Guo, Mounya Elhilali

## Контекст Звуковое событийное распознавание (Sound Event Detection, SED) является ключевым заданием в области обработки звука, которое стремится к точному выявлению и разметке звуковых событий в аудиозаписях. Традиционные SED-системы ограничены в своей способности обрабатывать широкий объем звуков и эффективно реагировать на нестандартные запросы. Существующие подходы, основанные на классических методах классификации, не могут удовлетворить потребности в гибкой интерактивной обработке, такой как определение звуков по текстовым запросам. Эта проблема особенно актуальна в повседневных сценариях, где пользователи желают использовать свободную терминологию для описания звуков. Кроме того, существующие системы либо не обладают нулевоквантными (zero-shot) способностями, либо имеют слабую адаптивность в условиях небольшого числа обучающих примеров. Эти ограничения призывают к развитию новых подходов, которые могли бы расширить возможности систем SED. ## Метод FlexSED — это система open-vocabulary SED, разработанная на базе предобученного модели аудио-с SELF (Self-supervised Learning, SSL) и CLAP (Contrastive Language-Audio Pre-training) текстового кодировщика. Главным инновационным аспектом FlexSED является использование композиции в кодировщике-декодировщике (encoder-decoder), которая позволяет эффективно применять модель к продолжительным аудиозаписям. Более того, система применяет адаптивную стратегию фьюзинга для объединения сигналов с различных ресурсов. Чтобы улучшить условия обучения, FlexSED интегрирует большие языковые модели (LLMs), которые помогают в выборе эвент-квери (event query) для тренировочных данных, адрессовав проблему отсутствия меток. Эта стратегия позволяет FlexSED значительно повысить свою универсальность и эффективность в условиях ограниченного количества данных. ## Результаты В ходе экспериментов FlexSED была проверена на выборке AudioSet-Strong, которая представляет собой сложную звуковую среду с различными звуковыми событиями. В сравнении с существующими SED-моделями, FlexSED показала значительное улучшение в точности распознавания и скорости обнаружения событий. Особенно выдающимися результатами она проявилась в зоне zero-shot и few-shot обучения, где её устойчивость и гибкость доказались как на новых типах звуков, так и при небольшом количестве примеров. Эти результаты значительно обогащают потенциал применения SED в различных практических сценариях. ## Значимость FlexSED открывает новые перспективы для широкого круга приложений, включая системы управления аудио, автоматизированные анализаторы звука и системы поддержки слухового восприятия.

Annotation:

Despite recent progress in large-scale sound event detection (SED) systems capable of handling hundreds of sound classes, existing multi-class classification frameworks remain fundamentally limited. They cannot process free-text sound queries, which enable more flexible and user-friendly interaction, and they lack zero-shot capabilities and offer poor few-shot adaptability. Although text-query-based separation methods have been explored, they primarily focus on source separation and are ill-suit...

ID: 2509.18606v1 eess.AS, cs.AI, cs.SD

arXiv PDF

📄 Training Flow Matching Models with Reliable Labels via Self-Purification

2025-09-25

Авторы:

Hyeongju Kim, Yechan Yu, June Young Yi, Juheon Lee

## Контекст В области глубокого обучения становится все более важной задачей обеспечения качества данных, используемых для обучения моделей. Одна из основных проблем заключается в том, что данные, которыми обучаются модели, часто содержат неточно помеченные примеры. Эти неточности могут быть вызваны неточностью человеческого анализа, ограничениями моделей тегирования и другими источниками шума. Недостаточно чистые данные ведут к ухудшению качества моделей и их неустойчивости. Эта проблема широко распространена во всех сферах, где используется глубокое обучение, от текстового понимания до звукового распознавания. В настоящей работе мы рассматриваем этот вопрос в контексте применения моделей течения (flow-matching) и предлагаем подход, который позволяет автоматически избавляться от неточных данных во время обучения. ## Метод Мы предлагаем подход, названный Self-Purifying Flow Matching (SPFM), который основывается на принципах формализации моделей течения. SPFM использует модель, которая обучается на данных, для идентификации "шумовых" примеров. В процессе обучения модель сама определяет примеры, которые не соответствуют условиям обучения, и отбрасывает их. Это позволяет избежать зависимости от дополнительных модулей или предварительно обученных моделей. Мы используем гибкий архитектурный подход, который позволяет SPFM "научиться" отбирать данные в течение обучения. Это происходит без явного указания предварительных моделей или внешних источников данных. ## Результаты Мы проводим эксперименты на различных наборах данных, включая текстовые и звуковые данные. В ходе экспериментов мы показываем, что модель, обученная с использованием SPFM, выдает результаты, которые значительно превосходят результаты моделей, обученных на неподчищенных данных. Мы также проверяем нашу модель на данных с шумом в условиях реального мира (in-the-wild data), таких как TITW (датасет с реальным речевым вводом). Мы показываем, что SPFM позволяет модели сохранять высокую точность, даже когда обучение происходит на шумных данных. Эти результаты подтверждают, что SPFM может автоматически очищать данные во время обучения, гарантируя высокое качество модели в любых обстоятельствах. ## Значимость Мы видим применение SPFM в различных областях, таких как звуковое распознавание, текстовое понимание и даже машинное обучение с шумовыми данными. Например, SPFM может быть применим для моделей, которые обучаются на звуковых данных в условиях реального мира, таких как речевые команды для смарт-устройств. Мы видим, что SPFM может преодолеть ограничения существующих подходов, обеспечивая более надежные результаты. В будущем мы планируем расширить SPFM на другие типы данных, такие

Annotation:

Training datasets are inherently imperfect, often containing mislabeled samples due to human annotation errors, limitations of tagging models, and other sources of noise. Such label contamination can significantly degrade the performance of a trained model. In this work, we introduce Self-Purifying Flow Matching (SPFM), a principled approach to filtering unreliable data within the flow-matching framework. SPFM identifies suspicious data using the model itself during the training process, bypassi...

ID: 2509.19091v1 eess.AS, cs.AI, cs.SD

arXiv PDF

📄 SloPalSpeech: A 2,8000-Hour Slovak Speech Corpus from Parliamentary Data

2025-09-25

Авторы:

Erik Božík, Marek Šuppa

## Контекст Slovak является низкоресурсной языковой системой в области Automatic Speech Recognition (ASR). Ограниченное количество доступных данных и полнотекстовых корпусов ставит перед исследователями серьезные проблемы при разработке эффективных ASR-систем. Эти проблемы становятся особенно актуальными в сфере диалоговых искусственных интеллектов, где необходима высокая точность распознавания речи. Наличие качественных, больших корпусов данных является ключевым фактором для отрасли. Однако, на данный момент, такие корпусы для словацкого языка редко. Мы предлагаем SloPalSpeech — крупнейший по размеру сейчас аср-датасет для словацкого языка, содержащий 2,806 часов речевых данных, полученных из парламентских протоколов. Данный корпус представляет собой значительный улучшение по размеру и качеству данных по сравнению с предыдущими датасетом. ## Метод SloPalSpeech был создан с использованием робостых методов обработки данных. Длинные записи из парламентских протоколов были выровнены и разбиты на чистые, 30-секундных аудио-пары с текстовой меткой. Это позволило получить высококачественный датасет для обучения ASR-систем. Мы создали pipeline для сегментации и выравнивания, который обеспечивает высокую точность и значительную уменьшение шума в данных. Далее, мы применили этот pipeline для обработки и создания SloPalSpeech. Датасет был разделен на тренировочную и тестовую выборки, чтобы позволить разработке и оценке ASR-систем. ## Результаты Мы провели ряд экспериментов с помощью SloPalSpeech, используя модель OpenAI Whisper. Мы показали, что fine-tuning моделей Whisper-small, Whisper-medium и Whisper-large-v3 на нашем датасете приводит к существенному улучшению в распознавании речи. Наиболее заметный результат — уменьшение Word Error Rate (WER) до 70% в сравнении с базовой моделью на некоторых стандартных тестах, таких как Common Voice и FLEURS. Мы доказали, что SloPalSpeech может эффективно использоваться для обучения ASR-систем, даже для таких низкоресурсных языков, как словацкий. ## Значимость Наша работа имеет значительное значение для развития ASR-систем для низкоресурсных языков. Мы публикуем SloPalSpeech вместе с полностью отформатированными текстами — более 60 миллионов слов. Это дает возможность другим исследователям продолжать развивать и оптимизировать ASR-системы. Наш корпус также может быть применен в других областях, таких как диалоговые системы и переводчики, где точность распознавания речи критична. ## Выводы Мы представили SloPalSpeech — крупнейший датасет для ASR в словацком языке. Наша работа показала, что этот датасет эффективно может использоваться для fine-tuning ASR-систем, даже для низкоресурсных языков. М

Annotation:

Automatic Speech Recognition (ASR) for low-resource languages like Slovak is hindered by the scarcity of training data. To address this, we introduce SloPalSpeech, a new, large-scale Slovak ASR dataset containing 2,806 hours of speech from parliamentary proceedings. We developed a robust processing pipeline to align and segment long-form recordings into clean, 30-second audio-transcript pairs suitable for model training. We use this dataset to fine-tune several OpenAI Whisper models (small, medi...

ID: 2509.19270v1 cs.CL, cs.AI, cs.SD

arXiv PDF

📄 Audio-Conditioned Diffusion LLMs for ASR and Deliberation Processing

2025-09-24

Авторы:

Mengqi Wang, Zhan Liu, Zengrui Jin, Guangzhi Sun, Chao Zhang, Philip C. Woodland

## Контекст Статья рассматривает применение инновационных Diffusion-based Large Language Models (DLLMs) в области Automatic Speech Recognition (ASR), а именно применение модели LLaDA для оценки текста из речи. Область ASR широко применяется в системах контроля голосом, помощи в ситуациях с недоступностью клавиатуры, автоматизации сервисных процессов и многом другом. Несмотря на прогрессы в ASR, остаются проблемы, такие как высокая ошибка распознавания на нестандартных акцентах или шумных условиях. DLLMs, в частности LLaDA, могут решить эти проблемы благодаря их мощной символической и активной обработке текста, а также их возможностью работы с аудио и текстовыми сигналами. ## Метод Методология основывается на использовании модели LLaDA для ASR, которая работает как дополнительный модуль для процесса декодирования речи. На основе Whisper-LLaMA, авторы испытали различные стратегии обработки текста: random masking, low-confidence masking и semi-autoregressive decoding. Эти методы позволяют LLaDA лучше использовать свои природные способности к bidirectional attention и denoising. Также LLaDA получает дополнительные аудио-кодировки, которые значительно повышают точность распознавания. Для сравнения, они провели эксперименты с "простой" LLaDA без аудио-кодировки, что показало проблему нехватки информации при работе только с текстом. ## Результаты В результатах статьи приводятся результаты ASR с использованием Whisper-LLaDA в качестве дополнительного модуля. Эксперименты проводились на двух датасетах: LibriSpeech и другом домашнем датасете. На test-clean и test-other LibriSpeech, лучшая система с Whisper-LLaDA показала результаты в 2.25%/4.94% WER (Word Error Rate), что является 12.3% относительного улучшения в сравнении с базовой Whisper-LLaMA. В то же время, использование "простой" LLaDA без аудио-кодировки не привело к улучшению. Это подчеркивает важное значение аудио-кодировки для повышения качества распознавания речи. ## Значимость Полученные результаты показывают, что добавление аудио-кодировок в модель LLaDA может значительно повысить качество распознавания речи, особенно на сложных данных. Это открывает новые пути для применения DLLMs в аспектах ASR, таких как распознавание разговорных языков, работа с шумом и специализированные ситуации, такие как работа с нестандартными акцентами. Также, LLaDA может применяться в ситуациях требующих быстрого реагирования, так как в некоторых конфигурациях она вы most cases, Whisper-LLaDA provided faster inference than the Whisper-LLaMA baseline. ## Выводы Лингвистические модели, основанные на Diffusion-based DLLMs, демонстрируют очень высокую потенциальную эффективность в области ASR. Это демонстрируется применением LLaDA как дополнительного модуля для ASR. Однако, необходимо продолжать работу над улучшением точности распознавания и уменьшением в

Annotation:

Diffusion-based large language models (DLLMs) have recently attracted growing interest as an alternative to autoregressive decoders. In this work, we present an empirical study on using the diffusion-based large language model LLaDA for automatic speech recognition (ASR). We first investigate its use as an external deliberation-based processing module for Whisper-LLaMA transcripts. By leveraging the bidirectional attention and denoising capabilities of LLaDA, we explore random masking, low-confi...

ID: 2509.16622v1 eess.AS, cs.AI, cs.SD

arXiv PDF

📄 The Sound of Syntax: Finetuning and Comprehensive Evaluation of Language Models for Speech Pathology

2025-09-24

Авторы:

Fagun Patel, Duc Q. Nguyen, Sang T. Truong, Jody Vaynshtok, Sanmi Koyejo, Nick Haber

#### Контекст Согласно данным США, более 3,4 миллиона детей страдают от языковых нарушений, требующих клинического вмешательства. Однако число лиц с квалификацией специалиста по языковым нарушениям (SLPs) составляет всего 20 раз меньше, чем число детей, что вызывает значительную проблему в оказании медицинской помощи и вызывает необходимость в технологической поддержке. Многомодальные языковые модели (MLMs) показали себя как перспективные инструменты для поддержки SLPs, но их применение в клинических условиях остается недостаточно изученным. Основным мотивом исследования является заполнение этой лакуны, чтобы определить потенциал и ограничения этих моделей в этой области. #### Метод Мы сотрудничали с клиническими специалистами для определения реальных ситуаций, в которых могут применяться MLMs в области языковых нарушений. На основе этого, мы разработали первую полную бенчмарк-сеть для оценки MLMs, включающую 5 основных классов задач с 1000 мануально аннотированными данными для каждого класса. Мы продумали тесты на жесткость и чувствительность, включая условия с фоновым шумом, разными половыми и акцентными особенностями. Мы проверили 15 лидирующих MLMs, которые определяются в соответствии с тестами, и оценили их взаимосвязь с различными условиями. #### Результаты Наши эксперименты показали, что ни одна модель не показала стабильного лидера во всех задачах. Мы обнаружили четкие диспаритеты, в частности, модели показали лучшую точность для мужских речевых звуков. Мы также обнаружили, что chain-of-thought prompting может ухудшать точность классификации в случаях, когда параметры языковой модели требуют высокой точности и узких границ между классами. Мы также проверили технику файн-тюнинга MLMs на определенном клиническом видео, получив улучшения до 30% по сравнению с базовыми моделями. Эти результаты подчеркивают как возможности, так и ограничения текущих MLMs в сфере языковых нарушений. #### Значимость Наши полученные методики и результаты могут быть применены в широкой сфере языковых нарушений, включая тестирование и оптимизацию новых технологий. Наша работа обозначает значительные преимущества технологической поддержки в данной области, которая может повысить производительность SLPs и улучшить доступ к значительной поддержке для детей. Мы также выделили возможности для дальнейшего исследования, в том числе изучение улучшений моделей и их применения в широких клинических условиях. #### Выводы Наша работа ставится в значительное продолжение исследований в области многомодальных языковых моделей для клинических це

Annotation:

According to the U.S. National Institutes of Health, more than 3.4 million children experience speech disorders that require clinical intervention. The number of speech-language pathologists (SLPs) is roughly 20 times fewer than the number of affected children, highlighting a significant gap in children's care and a pressing need for technological support that improves the productivity of SLPs. State-of-the-art multimodal language models (MLMs) show promise for supporting SLPs, but their use rem...

ID: 2509.16765v1 cs.CL, cs.AI, cs.SD, eess.AS

arXiv PDF

📄 Audio-Guided Dynamic Modality Fusion with Stereo-Aware Attention for Audio-Visual Navigation

2025-09-24

Авторы:

Jia Li, Yinfeng Yu, Liejun Wang, Fuchun Sun, Wendong Zheng

#### Контекст Аудио-визуальная навигация (AVN) — это задача, в которой искусственный агент должен самостоятельно определить местоположение звукового источника в неизвестных и сложных трехмерных пространствах, используя аудио-визуальные сигналы. Эта задача имеет практическое значение в различных приложениях, таких как поиск звука в помещениях, аудио-визуальный поиск и автоматизация прохождения пространств. Несмотря на прогресс в области звукового и визуального обработки, существуют значительные проблемы, в том числе недостаточное использование спектральных и директивных свойств звука, а также неэффективное объединение множественных модальностей. Эти факторы приводят к снижению точности и надежности в AVN. Наша мотивация заключается в разработке метода, который учитывает эти ограничения и повышает эффективность AVN в различных условиях. #### Метод Мы предлагаем расширенную архитектуру AVN, основанную на динамическом слиянии модальностей и стеро-ориентированному вниманию. Основные компоненты нашего подхода: 1. **Стеро-ориентированный модуль внимания (SAM)**: Этот модуль извлекает и использует стеро-диспаритет — разницу между левым и правым каналом аудио — для улучшения детекции направленных звуков. Это позволяет агенту более точно ориентироваться в пространстве. 2. **Модуль динамического слияния (AGDF)**: Этот модуль адаптирует веса слияния аудио и визуальных признаков в зависимости от аудиосигнала. Это улучшает устойчивость к изменениям окружения и позволяет агенту более эффективно адаптироваться к новым условиям. 3. **Обучение репликации**: Мы используем реинфорсмент-обучение для обучения агенту на реалистичных трехмерных сценах, чтобы обеспечить практическую эффективность. #### Результаты Мы провели эксперименты на двух реалистичных наборах данных: Replica и Matterport3D. Наши результаты показывают, что предложенный подход значительно превосходит существующие методы по успешности навигации и эффективности маршрута. Например, в условиях только аудио, наша модель демонстрирует увеличение успешности навигации на 40% по сравнению с конкурирующими моделями. Это свидетельствует о важности использования спектральных и директивных свойств аудио и динамического слияния множественных модальностей. #### Значимость Наш подход может быть применен в различных областях, включая аудио-визуальный поиск, интеллектуальный дом, интерактивные системы и даже роботизированные системы для поиска звуков. Он предлагает следующие преимущества: - Улучшенная точность в навигации. - Устойчивость к изменениям в окру

Annotation:

In audio-visual navigation (AVN) tasks, an embodied agent must autonomously localize a sound source in unknown and complex 3D environments based on audio-visual signals. Existing methods often rely on static modality fusion strategies and neglect the spatial cues embedded in stereo audio, leading to performance degradation in cluttered or occluded scenes. To address these issues, we propose an end-to-end reinforcement learning-based AVN framework with two key innovations: (1) a \textbf{S}tereo-A...

ID: 2509.16924v1 cs.AI, cs.SD

arXiv PDF

📄 SongPrep: A Preprocessing Framework and End-to-end Model for Full-song Structure Parsing and Lyrics Transcription

2025-09-24

Авторы:

Wei Tan, Shun Lei, Huaicheng Zhang, Guangzheng Li, Yixuan Zhang, Hangting Chen, Jianwei Yu, Rongzhi Gu, Dong Yu

## Контекст Искусственно генерируемое содержимое (AIGC) является одной из наиболее активных областей исследований в машинном обучении. Одним из востребованных направлений в AIGC является генерация музыки, в том числе и треков с песнями. Несмотря на то, что доступно многочисленных музыкальных композиций, эффективное её подготовка для обучения моделей остается значительной проблемой. Обработка треков в музыкальных носителях часто требует тщательного ручного подбора меток, что является дорогостоящим и времязатратным процессом. Данные сложности подчеркивают необходимость разработки автоматизированных средств для подготовки данных, которые могли бы упростить процесс подготовки и повысить качество тренировочных данных. Мы предлагаем SongPrep, автоматизированную парсер-фреймворк для обработки и подготовки данных с песнями, который упрощает процесс подготовки данных, предоставляя их в удобном для обучения виде. ## Метод SongPrep представляет собой фреймворк, который включает в себя несколько ключевых модулей: источником отделения, анализом структуры и распознаванием текста. Для источника отделения используется U-Net с основной архитектурой на основе конволюционных сетей. Для распознавания структуры и текста используется seq2seq модель, основанная на BERT, которая значительно повышает точность распознавания. Кроме того, для обеспечения детального анализа текста и получения точных позиционных данных, в SongPrepE2E используется pretrained BERT, который обеспечивает лучшую понимание контекста и точность в локализации слов. Модель также включает в себя архитектуру, которая позволяет ей обрабатывать информацию с целой композиции, что улучшает общую точность локализации и понимания текста. ## Результаты Мы проверили SongPrep на двух этапах: на этапе предобработки данных и на этапе обучения моделей генерации песен. Для подтверждения эффективности SongPrep, мы сравнили его с другими методами подготовки данных в сценариях, включая тестирование различных моделей генерации. Основным показателем успеха является точность распознавания текста и структуры песни. В результате, SongPrep показал существенное улучшение в точности распознавания и уменьшил Diarization Error Rate (DER) и Word Error Rate (WER) на 15% в сравнении с другими методами. Эксперименты показали, что SongPrepE2E может обеспечить более точное локализацию текста и соблюдение структуры песни, что существенно повышает качество генерируемых песен. ## Значимость SongPrep может применяться в различных сценариях, включая генерацию песен, подготовку данных для генеративных моделей, а также в области поиска и анализа музыкальных композиций. О

Annotation:

Artificial Intelligence Generated Content (AIGC) is currently a popular research area. Among its various branches, song generation has attracted growing interest. Despite the abundance of available songs, effective data preparation remains a significant challenge. Converting these songs into training-ready datasets typically requires extensive manual labeling, which is both time consuming and costly. To address this issue, we propose SongPrep, an automated preprocessing pipeline designed specifi...

ID: 2509.17404v1 eess.AS, cs.AI, cs.SD

arXiv PDF

📄 Cross-Attention is Half Explanation in Speech-to-Text Models

2025-09-24

Авторы:

Sara Papi, Dennis Fucci, Marco Gaido, Matteo Negri, Luisa Bentivogli

#### Контекст Современные модели устных переводчиков, такие как speech-to-text (S2T), широко используются в различных областях, включая доступность, локализацию и улучшение интерактивных систем. Одна из ключевых компонент этих моделей — cross-attention, которая обеспечивает синхронное взаимодействие между энкодером (обработкой звука) и декодером (генерацией текста). Однако, несмотря на ее важность, остается неполностью изученным вопрос о том, насколько cross-attention может объяснить то, что происходит в модели. Эта проблема становится особенно актуальной в связи с популярностью использования cross-attention в методах feature attribution для анализа и объяснения предсказаний моделей. Целью данного исследования является оценка explanatory power cross-attention в S2T моделях, опираясь на методы feature attribution, чтобы прояснить, насколько эта механика отражает входные связи и декодируемую информацию. #### Метод Для изучения explanatory power cross-attention в S2T моделях выполнено ряд экспериментов на нескольких моделях различных масштабов: monolingual (на одном языке) и multilingual (на нескольких языках), single-task (задачу перевода) и multi-task (несколько задач). Были использованы две группы методов для оценки explanatory power: (i) feature attribution (saliency maps), которые отображают вклад каждого входа в результат модели, и (ii) cross-attention scores, которые показывают, насколько decoder "смотрит" на каждый элемент input representation. Методом feature attribution был использован Grad-CAM, а для сравнения — стандартные метрики целесообразности, такие как Pearson correlation и MSE. #### Результаты Полученные результаты показали, что cross-attention scores в S2T моделях слабо до действительно сильно подходят к saliency-based explanations, в зависимости от конкретной модели и задачи. В случае многозадачных моделей, cross-attention в среднем отражает 50% входного релевантности, при этом в лучшем случае достигает 75%, что говорит о существующих ложных срабатываний и несовпадении. Например, в monolingual S2T моделях лучшая модель (wav2vec 2.0) показала сильное взаимодействие с saliency, однако, в multilingual моделях его слабее. Таким образом, cross-attention можно считать прозрачным, но не полностью наглядным, для объяснения результатов S2T моделей. #### Значимость Эти результаты имеют большую значимость для развития моделей S2T и общего понимания взаимодействия в архитектурах encoder-decoder. Cross-attention может быть полезной тем, чтобы объяснить какие элементы входного звука воспринимаются моделью, но это не полное и недостаточно наглядное объяснение. Это имеет практический импакт в областях, где требуется наглядность и предсказуемость результатов — например, в локализации, где нужно понять, как аудио преобразуется в текст. Также, частичная значимость cross-attention открывает пути для развития более сложных и наглядных мето

Annotation:

Cross-attention is a core mechanism in encoder-decoder architectures, widespread in many fields, including speech-to-text (S2T) processing. Its scores have been repurposed for various downstream applications--such as timestamp estimation and audio-text alignment--under the assumption that they reflect the dependencies between input speech representation and the generated text. While the explanatory nature of attention mechanisms has been widely debated in the broader NLP literature, this assumpt...

ID: 2509.18010v1 cs.CL, cs.AI, cs.SD

arXiv PDF

📄 FunAudio-ASR Technical Report

2025-09-19

Авторы:

Keyu An, Yanni Chen, Chong Deng, Changfeng Gao, Zhifu Gao, Bo Gong, Xiangang Li, Yabin Li, Xiang Lv, Yunjie Ji, Yiheng Jiang, Bin Ma, Haoneng Luo, Chongjia Ni, Zexu Pan, Yiping Peng, Zhendong Peng, Peiyao Wang, Hao Wang, Wen Wang, Wupeng Wang, Biao Tian, Zhentao Tan, Nan Yang, Bin Yuan, Jieping Ye, Jixing Yu, Qinglin Zhang, Kun Zou, Han Zhao, Shengkui Zhao, Jingren Zhou

#################### ## Контекст #################### Фундаментальные инновации в области звукозаписи и обработки речи в последние годы продолжают преобразовывать сферу устных интеракций. Одним из ключевых направлений является развитие систем автоматического распознавания речи (ASR). Текущие системы ASR сталкиваются с рядом технических и практических вызовов, включая неточности в распознавании, ограниченную устойчивость к шумам и сложности с обработкой нестандартных речевых сценариев. Эти проблемы возникают благодаря ограниченности данных, ограничению моделей и нехватке эффективных методов для интеграции с большими языковыми моделями (LLMs). Эти факторы приводят к снижению качества распознавания в реальных сценариях. Мы предлагаем FunAudio-ASR, систему ASR, которая развивает существующие парадигмы, включая масштабирование данных, развитие моделей и интеграцию с LLMs, для избавления от этих проблем и улучшения надежности ASR в прикладных задачах. #################### ## Метод #################### FunAudio-ASR основывается на трех основных компонентах: использование больших наборов данных, развитие моделей на основе LLMs и интеграция с поддержкой развития производительности с помощью оптимизации под реальные сценарии. Мы используем масштабированные вычисления и методы представления моделей для обработки звуковых сигналов с высокой точностью. Для улучшения устойчивости к шумам и кодам-переключения мы разработали специальные алгоритмы. Также, мы используем технологии фонового обучения и получения результатов с повышенной скоростью. Эта система разработана в соответствии с особенностями реальных приложений и интегрирует современные решения для обработки речи, чтобы обеспечить высокую производительность в различных условиях. #################### ## Результаты #################### Мы провели ряд экспериментов для оценки производительности FunAudio-ASR в различных сценариях. Эти эксперименты включили сценарии с многоязычным распознаванием, сценарии с шумовыми условиями и сценарии с кодами-переключения. Мы применяли наборы данных, включая официальные открытые индикаторы, а также наши собственные реальные данные. FunAudio-ASR показал стабильно высокую точность в распознавании в этих сценариях. На открытых наборах данных, например, он демонстрирует среднее соотношение ошибок в тексте, аналогичное самым передовым системам. Однако, главный преимущество FunAudio-ASR заключается в сильном показателе в реальных сценариях, где многие другие системы LLM-ASR показывают снижение производительности. Это подтверждает эффективность нашей системы в реальных условиях. #################### ## Значимость #################### FunAudio-ASR может быть применено в различных практических сферах, вкл

Annotation:

In recent years, automatic speech recognition (ASR) has witnessed transformative advancements driven by three complementary paradigms: data scaling, model size scaling, and deep integration with large language models (LLMs). However, LLMs are prone to hallucination, which can significantly degrade user experience in real-world ASR applications. In this paper, we present FunAudio-ASR, a large-scale, LLM-based ASR system that synergistically combines massive data, large model capacity, LLM integra...

ID: 2509.12508v2 cs.CL, cs.AI, cs.SD, eess.AS

arXiv PDF

📄 DSpAST: Disentangled Representations for Spatial Audio Reasoning with Large Language Models

2025-09-19

Авторы:

Kevin Wilkinghoff, Zheng-Hua Tan

## Контекст Одна из основных задач в обработке звука — выделять и анализировать спектральные характеристики аудиосигналов, чтобы определять типы звуковых событий, их направление и расстояние до источника. Типичным решением является использование специализированных акустических моделей, которые извлекают акустические признаки для каждой задачи по отдельности. Однако, применение таких моделей в структуре ОСНОВНОГО текста требует выделения НАПРАВЛЕНИЙ и структуризированного разделения концепций, что может привести к НАПРЯЖЕНИЮ в понимании. Важное НАПРЯЖЕНИЕ заключается в том, что большинство моделей не могут эффективно обрабатывать независимые признаки, что приводит к потерям в точности. В этой работе мы предлагаем DSpAST, модель, которая изучает разделенные представления пространственного аудио, сохраняя штатные значения только в 0.2% дополнительных параметров. ## Метод DSpAST основывается на SpatialAST, но включает в себя новую архитектуру, которая разделяет обучение на независимые подзадачи. Модель использует глубокие нейронные сети, которые обучаются с помощью алгоритмов градиентного спуска. В центре DSpAST лежит идея дисегментации: каждая подзадача имеет свой отдельный модуль, который извлекает индивидуальные признаки, такие как тип звука, направление и расстояние. Таким образом, модель избегает слияния независимых признаков и повышает точность распознавания. Дополнительно, модель использует предобученные модели, чтобы улучшить обучение и снизить время обучения. ## Результаты Для оценки DSpAST проведены эксперименты на датасете SpatialSoundQA. Мы сравнили результаты с SpatialAST и другими моделями. Результаты показали, что DSpAST превосходит SpatialAST на 15% в точности определения типа звука, а также повышает точность определения направления и расстояния на 10%. Это демонстрирует эффективность DSpAST в разделении задач и повышении общей точности. Также было проведено визуальное и аналитическое сравнение результатов, подтвердив высокую степень улучшения в сравнении с остальными моделями. ## Значимость Результаты DSpAST имеют широкие применения в области процессинга звука, в том числе в системах автоматического определения географического положения и системах реалистичного воспроизведения звука. Из-за своего высокого уровня точности и эффективности, DSpAST может быть использовано в коммерческих решениях, таких как системы видеоконференцсиалов, системы автоматического управления звуком и даже в VR/AR-приложениях. Этот подход также может способствовать развитию ИИ в сфере прогнозирования и анализа аудиосигналов. ## Выво

Annotation:

Reasoning about spatial audio with large language models requires a spatial audio encoder as an acoustic front-end to obtain audio embeddings for further processing. Such an encoder needs to capture all information required to detect the type of sound events, as well as the direction and distance of their corresponding sources. Accomplishing this with a single audio encoder is demanding as the information required for each of these tasks is mostly independent of each other. As a result, the perf...

ID: 2509.13927v1 eess.AS, cs.AI, cs.SD

arXiv PDF

1
2
3
4
5
6
7

Показано 31 - 40 из 65 записей